Sự khác biệt giữa phê bình diễn viên lợi thế và phê bình diễn viên TD?

7

Tôi có một câu hỏi liên quan đến phương pháp phê bình diễn viên trong học tập củng cố.

Trong các slide này ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) các loại khác nhau của các nhà phê bình diễn viên được giải thích. Nhà phê bình diễn viên lợi thế và nhà phê bình diễn viên TD được đề cập trong slide cuối cùng:

Nhưng khi tôi nhìn vào slide "Ước tính hàm lợi thế (2)", người ta nói rằng hàm lợi thế có thể được xấp xỉ bởi lỗi td. Sau đó, quy tắc cập nhật bao gồm lỗi td giống như trong phê bình diễn viên TD.

Vì vậy, là nhà phê bình diễn viên lợi thế và nhà phê bình diễn viên td thực sự giống nhau? Hay là có một sự khác biệt mà tôi không thấy?

reinforcement-learning

— cần giúp đỡ
nguồn

0

Lợi thế có thể được xấp xỉ bởi lỗi TD. Điều này có thể hữu ích đặc biệt nếu bạn muốn cập nhật $\theta$ sau mỗi lần chuyển đổi.

Đối với các cách tiếp cận hàng loạt, bạn có thể tính toán $Q_w(A,S)$ ví dụ: bằng phương pháp lặp Q được trang bị và sau đó $V(S)$ . Sử dụng điều này, bạn có chức năng lợi thế chung và thay đổi chính sách độ dốc của bạn có thể ổn định hơn nhiều vì nó sẽ gần với chức năng lợi thế toàn cầu / thực tế hơn.

— Karel Macek
nguồn

0

Họ khác nhau. Ưu điểm là sự khác biệt giữa giá trị hành động và giá trị nhà nước. Lỗi TD là thuật ngữ lỗi mà hàm giá trị muốn giảm thiểu.

Lỗi TD có thể được sử dụng để gần đúng lợi thế. Có nhiều cách khác để gần đúng lợi thế, chẳng hạn như (return - state_value).

— SQ
nguồn