Tìm kiếm cây Monte Carlo: Loại di chuyển nào có thể dễ dàng được tìm thấy và loại nào gây rắc rối?


10

Tôi muốn bắt đầu với một kịch bản khiến tôi suy nghĩ về việc MCTS có thể thực hiện tốt như thế nào: Hãy giả sử có một động thái chưa được thêm vào cây tìm kiếm. Đó là một số lớp / di chuyển quá sâu. Nhưng nếu chúng ta chơi di chuyển này, trò chơi về cơ bản là chiến thắng. Tuy nhiên, chúng ta cũng giả sử rằng tất cả các động thái có thể được thực hiện thay vào đó ở trạng thái trò chơi đã cho là rất rất xấu. Để tranh luận, giả sử có 1000 động tác có thể và chỉ một trong số đó là tốt (nhưng rất tốt) và phần còn lại là rất xấu. MCTS sẽ không nhận ra điều này và khôngphát triển cây tìm kiếm theo hướng này và cũng đánh giá cây con này rất tệ? Tôi biết rằng MCTS cuối cùng hội tụ đến minimax (và cuối cùng nó sẽ xây dựng toàn bộ cây nếu có đủ bộ nhớ). Sau đó, nên biết rằng di chuyển là tốt mặc dù có nhiều khả năng xấu. Nhưng tôi đoán trong thực tế đây không phải là thứ mà người ta có thể dựa vào. Có lẽ ai đó có thể cho tôi biết nếu đây là một đánh giá chính xác về phía tôi.

Ngoài kịch bản đặc biệt này, tôi cũng muốn biết liệu có những kịch bản khác như vậy mà MCTS sẽ hoạt động kém (hoặc tốt phi thường).


MCTS là xác suất. Vì vậy, nó cần manh mối hoặc nó sẽ không tìm thấy bất cứ điều gì. Ví dụ: tìm kiếm kim trong đống cỏ khô. Hãy thử điều này và bạn sẽ thất bại. Sẽ tốt hơn nếu bạn có thể đưa ra một ví dụ thực tế hơn và sẽ hỏi đâu là chiến lược tối ưu cho ví dụ đó. Điều này có thể đưa ra gợi ý về cách tìm kim tốt hơn trong đống cỏ khô.
Trilarion

Câu trả lời:


2

Việc di chuyển có được tìm thấy hay không và nó được tìm thấy nhanh như thế nào tùy thuộc vào một vài điều. Nếu tôi hiểu chính xác, có một chuỗi nhiều động thái "xấu" dẫn đến động thái "thắng lớn" và bạn sợ rằng thuật toán MCTS sẽ không chuyển sang "thắng lớn" bởi vì nó sẽ chọn nhiều triển vọng hơn di chuyển xa hơn lên cây. Một số điều cần suy nghĩ (cũng đọc bài viết MCTS Wikipedia ):

  • khi chơi, bạn chỉ có thể chơi trò chơi của mình trong một vài lần di chuyển tiếp hoặc xuống cuối trò chơi. Chỉ chơi một vài bước nữa rõ ràng là nhanh hơn, nhưng trong trường hợp cực đoan mà bạn mô tả thì đó không phải là lựa chọn tốt nhất. Nếu bạn biết về sự tồn tại của các kịch bản như vậy, hãy đảm bảo chơi trò chơi đến hết trong phần chơi.

  • khi thực hiện chơi, bạn có thể chọn các động tác / hành động của mình một cách ngẫu nhiên hoặc dựa trên một số phương pháp phỏng đoán đơn giản, tham lam (nhanh chóng) phù hợp với vấn đề của bạn. Có thể có các heuristic tham lam được thiết kế để tìm hoặc tính đến các kịch bản như vậy cho trò chơi / vấn đề của bạn? Nếu có, thực hiện chúng. Sau đó, nó được gọi là "playout nặng". So sánh kết quả với playouts bằng cách di chuyển ngẫu nhiên.

  • Nếu bạn chọn các hành động sử dụng UCT (Giới hạn tin cậy trên áp dụng cho Cây), thì phần đầu tiên của biểu thức chịu trách nhiệm khai thác. Di chuyển với tỷ lệ thắng trung bình cao được ưa thích. Phần thứ hai mặc dù tương ứng với thăm dò. Nếu tham số thăm dò được đặt đủ cao (kiểm tra theo kinh nghiệm cho vấn đề của bạn), thì việc di chuyển với một vài mô phỏng sẽ được ưu tiên. Thăm dò cao sẽ là một cách khác để tìm thấy bước đi vàng của bạn, gây bất lợi cho việc khai thác (đọc về tiến thoái lưỡng nan thăm dò / khai thác).

Nếu bạn mô tả một trò chơi thực tế hoặc kịch bản vấn đề, chúng tôi có thể giúp bạn đưa ra một chiến lược phù hợp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.