Làm thế nào để tìm kiếm Monte Monte-Carlo làm việc?


16

Tôi đã nghe về khái niệm này trong một bài đăng trên Reddit về Alpha Go. Tôi đã cố gắng đi qua bài báo và bài báo, nhưng thực sự không thể hiểu được thuật toán.

Vì vậy, ai đó có thể đưa ra một lời giải thích dễ hiểu về cách thuật toán tìm kiếm Monte-Carlo hoạt động và cách nó được sử dụng trong việc xây dựng các bot AI chơi trò chơi không?


Một mô tả hay về thuật toán MCTS có thể được tìm thấy tại: https://towardsdatascience.com/monte-carlo-tree-search-in-reinfor thi-learning-b97d3e743d0f .
nbro

Câu trả lời:


13

Phương pháp Monte Carlo là một cách tiếp cận trong đó bạn tạo ra một số lượng lớn các giá trị hoặc mô phỏng ngẫu nhiên và hình thành một số loại kết hợp dựa trên các mẫu chung, chẳng hạn như phương tiện và phương sai.

Ví dụ, bạn có thể sử dụng nó cho dự báo thời tiết . Dự đoán thời tiết dài hạn là khá khó khăn, bởi vì nó là một hệ thống hỗn loạn, nơi những thay đổi nhỏ có thể dẫn đến kết quả rất khác nhau. Sử dụng các phương pháp Monte Carlo, bạn có thể chạy một số lượng lớn các mô phỏng, mỗi mô phỏng có sự thay đổi khí quyển hơi khác nhau. Sau đó, bạn có thể phân tích kết quả và ví dụ tính xác suất mưa vào một ngày nhất định dựa trên số lượng mô phỏng kết thúc với mưa.

Đối với việc sử dụng Monte Carlo trong Alpha Go, dường như họ đang sử dụng cái gọi là Tìm kiếm cây Monte Carlo . Trong phương pháp này, bạn tạo ra một cây có thể di chuyển, một vài bước vào tương lai và cố gắng tìm ra chuỗi tốt nhất. Tuy nhiên, vì số lượng di chuyển có thể có trong trò chơi cờ vây là rất lớn, bạn sẽ không thể khám phá rất xa về phía trước. Điều này có nghĩa là một số động tác có vẻ tốt bây giờ có thể trở nên xấu sau này.

Vì vậy, trong Tìm kiếm cây Monte Carlo, bạn chọn một chuỗi các bước di chuyển đầy hứa hẹn và chạy một hoặc nhiều mô phỏng về cách trò chơi có thể tiến hành từ thời điểm đó. Sau đó, bạn có thể sử dụng kết quả của mô phỏng đó để hiểu rõ hơn về trình tự di chuyển cụ thể đó thực sự tốt như thế nào và bạn cập nhật cây theo đó. Lặp lại khi cần thiết cho đến khi bạn tìm thấy một động thái tốt.

Nếu bạn muốn biết thêm thông tin hoặc xem một số hình ảnh minh họa, tôi đã tìm thấy một bài viết thú vị về chủ đề này: C. Browne và cộng sự, Khảo sát về Phương pháp tìm kiếm cây Monte Carlo ( kho lưu trữ mở / liên kết cố định (paywalled) )


Vì vậy, về cơ bản những gì monte carlo làm trong alphago là tạo ra các chiến lược dài hạn, bằng cách xem xét các kết hợp di chuyển khác nhau, thay vì cách khác (chọn một chiến lược và sau đó là các động thái để đạt được nó)?
Diego Antonio Rosario Palomino

Không có đề cập đến yếu tố chính của phương pháp Monte Carlo, đó là yếu tố ngẫu nhiên được tích hợp vào việc lựa chọn các động thái có sẵn để điều tra. Không phải đánh đổi tính chính xác để đạt được xử lý gọn hơn được đề cập. Đó là hai khía cạnh quan trọng nhất và vắng mặt trong câu trả lời. Thay vào đó, "số lượng lớn các giá trị ngẫu nhiên hoặc mô phỏng" đã được đề cập, khi đó là số lượng mô phỏng nhỏ hơn từ các yếu tố giả ngẫu nhiên (một tìm kiếm ít cạn kiệt), đặc trưng của hội tụ Monte Carlo.
FauChristian
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.