Các phương pháp gradient chính sách ngoài chính sách có tồn tại không?

Tôi biết rằng chính các phương thức gradient chính sách sử dụng hàm chính sách để lấy mẫu. Nhưng chúng ta có thể dễ dàng có một mô hình để lấy mẫu từ môi trường không? Nếu vậy, tôi chưa bao giờ thấy điều này được thực hiện trước đây.

reinforcement-learning

— tiếng vang
nguồn

Tuyệt đối, đó là một vấn đề thực sự thú vị. Dưới đây là một bài viết chi tiết tắt phê bình diễn viên chính sách . Điều này rất quan trọng vì phương pháp này cũng có thể hỗ trợ các hành động liên tục.

Ý tưởng chung của các thuật toán ngoài chính sách là so sánh các hành động được thực hiện bởi chính sách hành vi (thực tế đang hành động trên thế giới) với các hành động mà chính sách mục tiêu (chính sách chúng tôi muốn tìm hiểu) sẽ chọn. Sử dụng so sánh này, chúng tôi có thể xác định tỷ lệ ( ) có thể mở rộng quy mô cập nhật cho chính sách mục tiêu theo xác suất của chính sách mục tiêu thực hiện hành động đó. càng cao , hai chính sách càng giống nhau và điều này làm tăng mức độ cập nhật học tập cho chính sách mục tiêu cho bước đó. A bằng và bản cập nhật bị bỏ qua. $0 \leq \rho \leq 1$ $\rho$ $\rho$ $0$

— Jaden Tra Mand
nguồn