Sự khác biệt giữa lập trình động và học khác biệt theo thời gian trong học tăng cường


8

Trong học tập củng cố, sự khác biệt giữa lập trình động và học khác biệt theo thời gian là gì?

Câu trả lời:


9

DP giải quyết cho hàm chính sách hoặc giá trị tối ưu bằng cách đệ quy. Nó đòi hỏi kiến ​​thức về quá trình quyết định markov (MDP) hoặc một mô hình của thế giới để có thể thực hiện các cuộc thu hồi. Nó thường được gộp trong "lập kế hoạch" thay vì "học", trong đó bạn đã biết MDP, và chỉ cần tìm ra những việc cần làm (tối ưu).

TD không có mô hình: nó không đòi hỏi kiến ​​thức về một mô hình của thế giới. Nó được lặp lại, và dựa trên mô phỏng, và học bằng cách bootstrapping, tức là giá trị của trạng thái hoặc hành động được ước tính bằng cách sử dụng các giá trị của trạng thái hoặc hành động khác.

Để biết thêm thông tin, xem:

http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

http://www.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.