nghĩa của 'Monte Carlo' trong câu này


7

Đây là từ một bài báo 'Thuật toán học tập củng cố ngược' của Ng, Russell (2001)

Chúng tôi giả định rằng chúng tôi có khả năng mô phỏng các quỹ đạo trong MDP (từ trạng thái ban đầu ) theo chính sách tối ưu hoặc theo bất kỳ chính sách nào chúng tôi chọn. Đối với mỗi chính sách mà chúng tôi sẽ xem xét (bao gồm cả chính sách tối ưu), chúng tôi sẽ cần một cách ước tính cho bất kỳ cài đặt nào của . Để thực hiện việc này, trước tiên, chúng tôi thực hiện các quỹ đạo trong .S0πVπ(S0)αTôim Monte Carlo_π

Xin lỗi vì trích dẫn dài. Ý nghĩa của 'Monte Carlo' trong câu cuối là gì?

Suy nghĩ đầu tiên của tôi sẽ được chỉ cần chạy các mô phỏng một lần nữa và một lần nữa lần. Nhưng suy nghĩ lại, tôi có thể rất sai.m

Câu trả lời:


10

Có gì Ng và Russell dường như được nói ở đây là mỗi chính sách họ mô phỏng kết quả "có thể" cho quá trình bắt đầu vào thời điểm . Theo "quỹ đạo", chúng dường như có nghĩa là sự phát triển có thể theo thời gian của các quá trình mô phỏng - các kịch bản có thể khác nhau được tạo ra bởi mô phỏng. Vì vậy, bạn đã đúng, Monte Carlo đứng ở đây cho "mô phỏng" (xem thêm chủ đề này ).πmS0


0

Monte Carlo ở đây chỉ đơn giản là sử dụng lấy mẫu để ước tính các giá trị. Thực tế điều này có nghĩa là thu thập một chuỗi các cặp (trạng thái, hành động), tức là quỹ đạo sử dụng một số chính sách tùy ý và từ đó bạn có thể tính toán các đại lượng có liên quan như V, v.v.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.