nghĩa của 'Monte Carlo' trong câu này

7

Đây là từ một bài báo 'Thuật toán học tập củng cố ngược' của Ng, Russell (2001)

Chúng tôi giả định rằng chúng tôi có khả năng mô phỏng các quỹ đạo trong MDP (từ trạng thái ban đầu ) theo chính sách tối ưu hoặc theo bất kỳ chính sách nào chúng tôi chọn. Đối với mỗi chính sách mà chúng tôi sẽ xem xét (bao gồm cả chính sách tối ưu), chúng tôi sẽ cần một cách ước tính cho bất kỳ cài đặt nào của . Để thực hiện việc này, trước tiên, chúng tôi thực hiện các quỹ đạo trong . $s_0$ $\pi$ $V^{\pi}(s_0)$ $\alpha_i$ $m$ $\underline{\text{Monte Carlo}}$ $\pi$

Xin lỗi vì trích dẫn dài. Ý nghĩa của 'Monte Carlo' trong câu cuối là gì?

Suy nghĩ đầu tiên của tôi sẽ được chỉ cần chạy các mô phỏng một lần nữa và một lần nữa lần. Nhưng suy nghĩ lại, tôi có thể rất sai. $m$

— cái tôi
nguồn

10

Có gì Ng và Russell dường như được nói ở đây là mỗi chính sách họ mô phỏng kết quả "có thể" cho quá trình bắt đầu vào thời điểm . Theo "quỹ đạo", chúng dường như có nghĩa là sự phát triển có thể theo thời gian của các quá trình mô phỏng - các kịch bản có thể khác nhau được tạo ra bởi mô phỏng. Vì vậy, bạn đã đúng, Monte Carlo đứng ở đây cho "mô phỏng" (xem thêm chủ đề này ). $\pi$ $m$ $s_0$

— Tim
nguồn

0

Monte Carlo ở đây chỉ đơn giản là sử dụng lấy mẫu để ước tính các giá trị. Thực tế điều này có nghĩa là thu thập một chuỗi các cặp (trạng thái, hành động), tức là quỹ đạo sử dụng một số chính sách tùy ý và từ đó bạn có thể tính toán các đại lượng có liên quan như V, v.v.

— tạm thời
nguồn