Bất kỳ mã ví dụ của thuật toán REINFORCE được đề xuất bởi Williams?


9

Có ai biết ví dụ về Thuật toán Williams được đề xuất trong Bài viết "Một lớp thuật toán ước tính độ dốc để học tăng cường trong các mạng thần kinh" http://incompleteideas.net/sutton/williams-92.pdf


Tôi sẽ quên đến đây khi tôi làm, nhưng tôi sắp hoàn thành việc tái cấu trúc openAI ' github.com/pytorch/examples/blob/master/reinfor thi_learning/iêu thành một phong cách hướng đối tượng, thực sự có thể mở rộng. ping tôi về điều đó và tôi sẽ đăng nó ở đây
Gulzar

Tôi đã thực hiện nó ở đây: mã Lua . Hy vọng nó giúp!
xenomeno

Câu trả lời:


11

Từ bài giảng RL của David Silver về các phương pháp Gradient chính sách , slide 21 ở đây là mã giả cho thuật toán Tăng cường tập, về cơ bản là một phương pháp dựa trên độ dốc trong đó lợi nhuận kỳ vọng được lấy mẫu trực tiếp từ tập (trái ngược với ước tính với một số đã học chức năng). Trong trường hợp này, lợi nhuận kỳ vọng thực sự là tổng phần thưởng theo từng giai đoạn trở đi, .Gt

khởi tạoθ

cho mỗi tập { } được lấy mẫu từ chính sách dos1,a1,r2...sT1,aT1,rTπθ

    cho t = 1 đến T - 1 làm

        θθ+αθlogπθ(st,at)Gt

    kết thúc cho

kết thúc cho

Thuật toán này chịu sự chênh lệch cao vì phần thưởng được lấy mẫu có thể rất khác nhau từ tập này sang tập khác do đó thuật toán này thường được sử dụng với đường cơ sở được trừ từ chính sách. Dưới đây là một lời giải thích chi tiết hơn hoàn thành với các mẫu mã.


Tôi tò mò tại sao cập nhật trọng lượng mỗi dấu thời gian thay vì cập nhật một lần vào cuối tập? Sự hiểu biết của tôi là không bị thay đổi trong chuyển tiếp của toàn bộ phản bộiθ
eric2323223

@ eric2323223 Khóa học của David Silver (được khuyến nghị) thảo luận về điều đó một cách xuyên suốt. REINFORCE là một phương pháp monte-carlo. Bạn có thể thực hiện cập nhật thường xuyên hơn, tốt hơn cho nhiều trường hợp. Đi xem video để nhận được lời giải thích tốt hơn nhiều so với những gì tôi có thể cung cấp ở đây. Nói chung, ông gọi phương thức thường xuyên hơn là "Sự khác biệt tạm thời" hoặc "TD", với một tối ưu hóa được gọi là "TD (lambda)"
Gulzar

REINFORCE có phải là thuật toán chính sách không?
Đi MYWay

2

Thuật toán REINFORCE cho việc học tăng cường độ dốc chính sách là một thuật toán gradient ngẫu nhiên đơn giản. Nó hoạt động tốt khi các tập phim ngắn một cách hợp lý nên rất nhiều tập có thể được mô phỏng. Các phương pháp hàm giá trị tốt hơn cho các tập dài hơn vì chúng có thể bắt đầu học trước khi kết thúc một tập duy nhất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.