Sự khác biệt giữa diễn viên-phê bình và lợi thế diễn viên-phê bình là gì?


11

Tôi đang đấu tranh để hiểu sự khác biệt giữa nhà phê bình diễn viên và nhà phê bình diễn viên lợi thế.

Ít nhất, tôi biết chúng khác với nhà phê bình diễn viên lợi thế không đồng bộ (A3C), vì A3C bổ sung một cơ chế không đồng bộ sử dụng nhiều tác nhân công nhân tương tác với bản sao môi trường của chính họ và báo cáo độ dốc cho tác nhân toàn cầu.

Nhưng sự khác biệt giữa nhà phê bình diễn viên và nhà phê bình diễn viên lợi thế (A2C) là gì? Nó chỉ đơn giản là có hoặc không có chức năng lợi thế ? Nhưng, sau đó, các nhà phê bình diễn viên có bất kỳ thực hiện nào khác ngoại trừ việc sử dụng chức năng lợi thế?

Hoặc có thể chúng là từ đồng nghĩa và nhà phê bình diễn viên chỉ là một cách viết tắt của A2C?

Câu trả lời:


11

Actor-Critic không chỉ là một thuật toán đơn lẻ, nó nên được xem như là một "gia đình" của các kỹ thuật liên quan. Tất cả chúng đều là các kỹ thuật dựa trên định lý độ dốc chính sách, đào tạo một số dạng phê bình tính toán một số dạng ước tính giá trị để đưa vào quy tắc cập nhật dưới dạng thay thế phương sai thấp hơn cho kết quả trả về ở cuối tập. Tất cả đều thực hiện "bootstrapping" bằng cách sử dụng một số loại dự đoán giá trị.

Advantage Actor-Critic đặc biệt sử dụng các ước tính của hàm lợi thếMột(S,một)= =V(S)-Q(S,một)cho bootstrapping của nó, trong khi "nhà phê bình diễn viên" không có vòng loại "lợi thế" thì không cụ thể; nó có thể là một người được đào tạoV(S) chức năng, nó có thể là một số loại ước tính của Q(S,một), nó có thể là một loạt các thứ.

Trong thực tế, người chỉ trích các phương pháp phê bình diễn viên lợi thế thực sự chỉ có thể được đào tạo để dự đoán V(S). Kết hợp với phần thưởng theo kinh nghiệmr, sau đó họ có thể tính toán ước tính lợi thế Một(S,một)= =r+γV(S')-V(S).


1
Làm rõ tốt đẹp. Bạn có biết một ví dụ về phương pháp phê bình diễn viên không phải là lợi thế của nhà phê bình diễn viên không? Ngoài ra, sẽ công bằng khi nói rằng PPO là một loại phương pháp phê bình diễn viên có lợi thế?
Mei Zhang

1
@MeiZhang Một số tùy chọn được liệt kê ở đây , nhưng tôi không nghĩ rằng họ thực sự có tên rõ ràng. Ưu điểm chắc chắn là được sử dụng phổ biến nhất. Chắc chắn, PPO có thể được xem là một phương pháp phê bình diễn viên lợi thế.
Dennis Soemers

2

Theo Sutton và Barto, chúng là những thứ giống nhau. Lưu ý 13,5-6 (trang 339) về Học tập Củng cố của họ : Giới thiệu, sách tái bản lần 2 :

Phương pháp phê bình diễn viên đôi khi được gọi là phương pháp phê bình diễn viên có lợi trong văn học


0

Mặc dù từ "Lợi thế" trong lĩnh vực phê bình diễn viên đã được sử dụng để chỉ sự khác biệt giữa giá trị trạng thái và giá trị hành động trạng thái, A2C mang đến ý tưởng của A3C. Trong A3C, một số mạng công nhân tương tác với các bản sao khác nhau của môi trường (học không đồng bộ) và cập nhật mạng chính sau một bước nếu được đặt. Điều này có nghĩa là để giải quyết các vấn đề không ổn định liên quan đến cả phương pháp cập nhật chênh lệch thời gian và các mối tương quan trong mạng thần kinh tạo ra các giá trị dự đoán và mục tiêu. Tuy nhiên, OpenAI đã nhận thấy rằng không cần sự không đồng bộ, tức là không có lợi ích thiết thực nào khi có các mạng công nhân khác nhau. Thay vào đó, họ có cùng một bản sao của mạng tương tác với các bản sao khác nhau của môi trường (một bản hoạt động ngay từ đầu, một cái khác hoạt động ngược từ cuối) và chúng cập nhật cùng một lúc mà không bị chủ bị tụt lại phía sau như trong A3C. Việc loại bỏ sự không đồng bộ đã tạo ra A2C.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.