Có phải kế hoạch trong Dyna-Q là một hình thức phát lại kinh nghiệm?


8

Trong cuốn sách của Richard Sutton về RL (ấn bản 2) , ông trình bày thuật toán Dyna-Q, kết hợp giữa lập kế hoạch và học tập.

Trong phần kế hoạch của thuật toán, các Dyna-agent mẫu ngẫu nhiên n cặp bang-action trước đây nhìn thấy bởi các đại lý, nguồn cấp dữ liệu cặp này vào mô hình của môi trường và nhận được một trạng thái tiếp theo lấy mẫu và thưởng . Sau đó, nó sử dụng bộ để thực hiện cập nhật Q-learning thông thường.(s,a)sr(s,a,r,s)

Trong môi trường xác định, phần thưởng và trạng thái tiếp theo luôn giống nhau cho một cặp hành động trạng thái nhất định . Trong chương về Dyna-Q, Sutton không đề cập đến quá trình này như là một hình thức phát lại kinh nghiệm và chỉ giới thiệu khái niệm sau này nhiều hơn trong cuốn sách. Tuy nhiên tôi thực sự không thể thấy sự khác biệt (nếu có một) giữa hai quá trình đó.(st,at)(rt+1,st+1)

Có đúng không khi nói rằng trong một môi trường xác định, lập kế hoạch trong Tabular Dyna-Q là một hình thức phát lại kinh nghiệm ?

Tabular Dyna-Q từ cuốn sách của Sutton, mục 8.2

Câu trả lời:


2

Có đúng không khi nói rằng trong một môi trường xác định, lập kế hoạch trong Tabular Dyna-Q là một hình thức phát lại kinh nghiệm?

Tôi sẽ nói rằng nó không hoàn toàn chính xác để nói điều này, chỉ bởi vì các thuật ngữ "Trải nghiệm phát lại" và "Dyna-Q" được hiểu rõ khi đề cập đến việc triển khai cụ thể. Đúng là trong tình huống cụ thể mà bạn mô tả ( RL dạng bảng trong môi trường xác định ), cuối cùng họ sẽ làm những việc tương tự. Tuy nhiên, họ vẫn làm những điều tương tự bằng cách sử dụng các triển khai khác nhau, điều này có thể tạo ra sự khác biệt tinh tế trong thực tế. Ví dụ, hai ý tưởng có thể có yêu cầu bộ nhớ khác nhau. Vì lý do này, tôi không nghĩ rằng việc sử dụng một thuật ngữ khi nghĩa kia là chính xác, mặc dù chúng rất gần nhau trong tình huống này.

Sau đây là trích dẫn từ Kết luận về "Học tăng cường cho robot sử dụng mạng nơ ron" (1993), luận án của Long-Ji Lin. Đây là một trong những nguồn đầu tiên của Trải nghiệm phát lại. Xuyên suốt toàn bộ tài liệu, Experience Replay và Dyna luôn được coi là những ý tưởng khác nhau, nhưng thực sự có nhiều điểm tương đồng:

Luận án này đã đề xuất một kỹ thuật gọi là phát lại kinh nghiệm. Kỹ thuật này có hiệu lực tận dụng một mô hình, nhưng không gặp vấn đề khó khăn khi xây dựng một mô hình, bởi vì mô hình chỉ đơn giản là tập hợp các kinh nghiệm trong quá khứ.

Vì vậy, sự khác biệt quan trọng thực sự không nằm ở những gì họ đạt được, mà là cách họ làm điều đó. Khi bạn di chuyển ra ngoài cài đặt bạn đã mô tả ( Xấp xỉ chức năng thay vì dạng bảng và / hoặc không xác định thay vì xác định), bạn sẽ thấy nhiều khác biệt về ứng dụng.


0

Trong một số bài báo, hai khái niệm được coi là giống nhau, ví dụ: Krueger, Paul, Thomas Griffiths và Stuart J. Russell. "Định hình học tập củng cố mô hình miễn phí với giả ngẫu nhiên dựa trên mô hình." (2017).

Tuy nhiên, có thể có một sự khác biệt trong cách cập nhật được thực hiện. Dyna sử dụng hàm giá trị và lỗi dự đoán trực tiếp. Do đó, nó có thể sử dụng một cập nhật bước mô phỏng duy nhất.

Sử dụng phát lại có thể giống với sử dụng các bản cập nhật montecarlo xem xét phần thưởng tích lũy trong chuỗi hành động và không sử dụng hàm giá trị hoặc lỗi dự đoán trong bản cập nhật.

Z. Feldman và C. Domshlak, tìm kiếm cây Monte-Carlo: Để MC hoặc tới DP?, Nhẫn trong ECAI 2014: Hội nghị châu Âu về trí tuệ nhân tạo lần thứ 21, 2014, tập. 263, tr. 321

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.