Làm thế nào để ước tính lợi thế tổng quát làm việc?


8

Tôi đã cố gắng thêm GAE vào triển khai A2C của mình được một thời gian rồi, nhưng dường như tôi không thể hiểu được cách thức hoạt động của nó.

Sự hiểu biết của tôi về nó, là nó làm giảm phương sai của hàm ước tính lợi thế bằng cách 'lấy trung bình' (hoặc khái quát hóa) các lợi thế dựa trên các giá trị trong buổi giới thiệu.

Tôi đã cố gắng tự mình chạy qua các môn toán, và cuối cùng tôi chỉ có một lợi thế cho toàn bộ buổi giới thiệu, phải không? Thông thường, chúng tôi sẽ có một lợi thế cho mỗi dấu thời gian trong buổi giới thiệu.

Bất cứ ai cũng có thể cung cấp một lời giải thích về trực giác của GAE?

Câu trả lời:


7

Tôi tìm thấy rất trực quan lời giải thích về GAE trong tài liệu bổ sung của bài viết này: DeepMimic . Bạn không cần phải đọc bài báo. Chỉ cần đi thẳng đến phần Tài liệu bổ sung trên trang 143: 15. Đối với lợi nhuận you, bạn có thể tìm thấy nhiều thông tin trong sách Học tập củng cố của Sutton và Barto. Hy vọng nó giúp!


1
Bắt tốt, đó là lời giải thích rõ ràng nhất về return-return Tôi đã đọc cho đến nay!
MasterScrat

1

Bạn có thể tìm thấy một lời giải thích tốt về return-return trên blog của Lilian Weng: Kết hợp TD và MC Learning .

Công cụ ước tính lợi thế tổng quát GAE (λ) chỉ đơn giản là sử dụng return-return để ước tính hàm lợi thế.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.