Đây là từ một bài báo 'Thuật toán học tập củng cố ngược' của Ng, Russell (2001)
Chúng tôi giả định rằng chúng tôi có khả năng mô phỏng các quỹ đạo trong MDP (từ trạng thái ban đầu ) theo chính sách tối ưu hoặc theo bất kỳ chính sách nào chúng tôi chọn. Đối với mỗi chính sách mà chúng tôi sẽ xem xét (bao gồm cả chính sách tối ưu), chúng tôi sẽ cần một cách ước tính cho bất kỳ cài đặt nào của . Để thực hiện việc này, trước tiên, chúng tôi thực hiện các quỹ đạo trong .
Xin lỗi vì trích dẫn dài. Ý nghĩa của 'Monte Carlo' trong câu cuối là gì?
Suy nghĩ đầu tiên của tôi sẽ được chỉ cần chạy các mô phỏng một lần nữa và một lần nữa lần. Nhưng suy nghĩ lại, tôi có thể rất sai.