Tuyệt đối, đó là một vấn đề thực sự thú vị. Dưới đây là một bài viết chi tiết tắt phê bình diễn viên chính sách . Điều này rất quan trọng vì phương pháp này cũng có thể hỗ trợ các hành động liên tục.
Ý tưởng chung của các thuật toán ngoài chính sách là so sánh các hành động được thực hiện bởi chính sách hành vi (thực tế đang hành động trên thế giới) với các hành động mà chính sách mục tiêu (chính sách chúng tôi muốn tìm hiểu) sẽ chọn. Sử dụng so sánh này, chúng tôi có thể xác định tỷ lệ ( ) có thể mở rộng quy mô cập nhật cho chính sách mục tiêu theo xác suất của chính sách mục tiêu thực hiện hành động đó. càng cao , hai chính sách càng giống nhau và điều này làm tăng mức độ cập nhật học tập cho chính sách mục tiêu cho bước đó. A bằng và bản cập nhật bị bỏ qua.0 ≤ ρ ≤ 1ρρ0