Trang web trí tuệ nhân tạo định nghĩa học tập ngoài chính sách và chính sách như sau:
"Một người học ngoài chính sách học giá trị của chính sách tối ưu một cách độc lập với các hành động của đại lý. Q-learning là một người học ngoài chính sách. Một người học về chính sách học về giá trị của chính sách được thực hiện bởi đại lý bao gồm các bước thăm dò . "
Tôi muốn hỏi làm rõ của bạn về điều này, bởi vì họ dường như không làm cho bất kỳ sự khác biệt với tôi. Cả hai định nghĩa có vẻ như chúng giống hệt nhau. Những gì tôi thực sự hiểu là học tập dựa trên mô hình và dựa trên mô hình, và tôi không biết liệu chúng có liên quan gì đến những câu hỏi không.
Làm thế nào có thể chính sách tối ưu được học độc lập với hành động của đại lý? Không phải chính sách đã học khi đại lý thực hiện các hành động sao?