Có ai biết ví dụ về Thuật toán Williams được đề xuất trong Bài viết "Một lớp thuật toán ước tính độ dốc để học tăng cường trong các mạng thần kinh" http://incompleteideas.net/sutton/williams-92.pdf
Có ai biết ví dụ về Thuật toán Williams được đề xuất trong Bài viết "Một lớp thuật toán ước tính độ dốc để học tăng cường trong các mạng thần kinh" http://incompleteideas.net/sutton/williams-92.pdf
Câu trả lời:
Từ bài giảng RL của David Silver về các phương pháp Gradient chính sách , slide 21 ở đây là mã giả cho thuật toán Tăng cường tập, về cơ bản là một phương pháp dựa trên độ dốc trong đó lợi nhuận kỳ vọng được lấy mẫu trực tiếp từ tập (trái ngược với ước tính với một số đã học chức năng). Trong trường hợp này, lợi nhuận kỳ vọng thực sự là tổng phần thưởng theo từng giai đoạn trở đi, .
khởi tạo
cho mỗi tập { } được lấy mẫu từ chính sách do
cho t = 1 đến T - 1 làm
kết thúc cho
kết thúc cho
Thuật toán này chịu sự chênh lệch cao vì phần thưởng được lấy mẫu có thể rất khác nhau từ tập này sang tập khác do đó thuật toán này thường được sử dụng với đường cơ sở được trừ từ chính sách. Dưới đây là một lời giải thích chi tiết hơn hoàn thành với các mẫu mã.
Thuật toán REINFORCE cho việc học tăng cường độ dốc chính sách là một thuật toán gradient ngẫu nhiên đơn giản. Nó hoạt động tốt khi các tập phim ngắn một cách hợp lý nên rất nhiều tập có thể được mô phỏng. Các phương pháp hàm giá trị tốt hơn cho các tập dài hơn vì chúng có thể bắt đầu học trước khi kết thúc một tập duy nhất.