Câu trả lời:
Bootstrapping trong RL có thể được đọc là "sử dụng một hoặc nhiều giá trị ước tính trong bước cập nhật cho cùng loại giá trị ước tính".
Trong hầu hết các quy tắc cập nhật TD, bạn sẽ thấy một cái gì đó giống như bản cập nhật SARSA (0) này:
Giá trị là ước tính cho giá trị thực của và còn được gọi là mục tiêu TD. Đây là một phương thức bootstrap vì chúng ta một phần sử dụng giá trị Q để cập nhật giá trị Q khác. Có một lượng nhỏ dữ liệu được quan sát thực tế dưới dạng , phần thưởng ngay lập tức cho bước này và cả trong quá trình chuyển đổi trạng thái .
Tương phản với Monte Carlo nơi quy tắc cập nhật tương đương có thể là:
Trong đó là tổng phần thưởng được giảm giá tại thời điểm , giả sử trong bản cập nhật này, nó bắt đầu ở trạng thái , thực hiện hành động , sau đó tuân theo chính sách hiện tại cho đến khi kết thúc tập phim. Về mặt kỹ thuật, trong đó là bước thời gian cho phần thưởng và trạng thái cuối. Đáng chú ý, giá trị mục tiêu này hoàn toàn không sử dụng bất kỳ ước tính hiện có nào (từ các giá trị Q khác), nó chỉ sử dụng một tập hợp các quan sát (nghĩa là phần thưởng) từ môi trường. Như vậy, nó được đảm bảo là ước tính không thiên vị về giá trị thực của , vì về mặt kỹ thuật nó là một mẫu củaQ ( s , a ) Q ( s , a ).
Nhược điểm chính của bootstrapping là nó thiên về bất cứ giá trị bắt đầu nào của (hoặc ) của bạn. Những điều đó rất có thể sai và hệ thống cập nhật có thể không ổn định vì toàn bộ quá nhiều tài liệu tham khảo và không đủ dữ liệu thực - đây là vấn đề với việc học ngoài chính sách (ví dụ: Q-learning) sử dụng mạng thần kinh.
Không có bootstrapping, sử dụng quỹ đạo dài hơn, thường có phương sai cao thay vào đó, trong thực tế, có nghĩa là bạn cần nhiều mẫu hơn trước khi ước tính hội tụ. Vì vậy, mặc dù các vấn đề với bootstrapping, nếu nó có thể được thực hiện để hoạt động, nó có thể học nhanh hơn đáng kể và thường được ưa thích hơn các phương pháp của Monte Carlo.
Bạn có thể thỏa hiệp giữa các phương pháp dựa trên mẫu Monte Carlo và phương pháp TD một bước khởi động bằng cách sử dụng kết hợp các kết quả từ các quỹ đạo có độ dài khác nhau. Điều này được gọi là học TD ( ) bước sóng bước sóng và có nhiều phương pháp cụ thể như SARSA ( ) hoặc Q ( ).
Nói chung, bootstrapping trong RL có nghĩa là bạn cập nhật một giá trị dựa trên một số ước tính và không dựa trên một số giá trị chính xác . Ví dụ
Cập nhật đánh giá chính sách gia tăng Monte Carlo:
TD (0) Cập nhật đánh giá chính sách:
Trong TD (0), lợi nhuận bắt đầu từ trạng thái được ước tính (bootstrapping) bởi trong khi trong MC, chúng tôi sử dụng trả về chính xác .