Các ứng dụng của MCTS / UCT


10

MCTS / UCT là một phương pháp tìm kiếm cây trò chơi sử dụng thuật toán kẻ cướp để chọn các nút hứa hẹn để khám phá. Các trò chơi được chơi để hoàn thành ngẫu nhiên và các nút dẫn đến nhiều chiến thắng được khám phá nhiều hơn. Thuật toán kẻ cướp duy trì sự cân bằng giữa việc khám phá các nút có tỷ lệ thắng cao và khám phá các nút không xác định (và ở dạng thuần túy không nhất thiết phải sử dụng hàm đánh giá heuristic). Các chương trình dựa trên kỹ thuật chung này đã đạt được kết quả khá tuyệt vời trong máy tính Go .

Các tìm kiếm monte-carlo do kẻ cướp điều khiển đã được áp dụng cho bất kỳ vấn đề tìm kiếm nào khác chưa? Chẳng hạn, nó có phải là một cách tiếp cận hữu ích trong việc xấp xỉ các giải pháp cho MAX-SAT, BKP hoặc các vấn đề tối ưu hóa tổ hợp khác không? Có bất kỳ đặc điểm cụ thể nào của một vấn đề (cấu trúc / thống kê / v.v.) sẽ gợi ý liệu phương pháp theo kiểu kẻ cướp có hiệu quả hay không?

Có bất kỳ vấn đề xác định đã biết nào sẽ hoàn toàn chống lại các phương pháp kẻ cướp, do bản chất của không gian giải pháp?

Câu trả lời:


7

Đây không phải là một câu trả lời hoàn chỉnh, nhưng một số quan sát cơ bản về việc áp dụng điều này cho MAX-SAT.

Ở mức độ cao, có vẻ như cách tiếp cận heuristic này (khi được áp dụng cho MAX-SAT) sẽ tương tự như thuật toán phân nhánh dựa trên phương pháp "kỳ vọng có điều kiện", một phương pháp tiêu chuẩn trong khử nhiễu. Ví dụ: để có được phép tính gần đúng cho MAX 3-SAT (với 3 biến cho mỗi mệnh đề), người ta đặt một biến , ước tính tỷ lệ các mệnh đề dự kiến ​​sẽ được thỏa mãn bằng cách gán ngẫu nhiên trong phần còn lại công thức, sau đó đặt và thực hiện phép tính tương tự. (Điều này trông cực kỳ giống với "chơi trò chơi để hoàn thành ngẫu nhiên".) Cài đặt biến có tỷ lệ mệnh đề dự kiến ​​cao hơn ( hoặc ) sẽ được chọn. Thuật toán thời gian đa thức này chox = 0 x = 1 x = 0 x = 1 7 / 8 7 / 87/số 8x= =0x= =1x= =0x= =17/số 8 đúng và được biết là chặt chẽ (bạn có thể đánh lừa nó để đáp ứng chỉ mệnh đề). Kết nối này sẽ làm cho nó có thể chứng minh giới hạn thấp hơn về khả năng của heuristic này.7/số 8

Được biết, xấp xỉ MAX 3-SAT tốt hơn là -hard, vì vậy chúng tôi không mong đợi một heuristic hiệu quả sẽ làm tốt hơn điều này. Sẽ rất thú vị khi chỉ ra (và tôi phỏng đoán là sự thật) rằng một thuật toán phân nhánh dựa trên lựa chọn heuristic lựa chọn ở trên đòi hỏi nhiều bước theo cấp số nhân để tìm ra xấp xỉ tốt hơn . Đã có giới hạn thấp hơn trên tùy ý mà nói rằng không có vấn đề dựa trên kinh nghiệm bạn sử dụng, thậm chí nếu bạn đoán một cách hoàn hảo, vẫn còn thức không thể thoả mãn mà quay lui sẽ chỉ kết luận họ đang không thể thoả mãn sau khi theo cấp số nhân nhiều bước. Giới hạn dưới về độ dài của bằng chứng độ phân giải mang lại những kết quả này. Một tài liệu tham khảo là:N P 7 / 87/số 8NP7/số 8

Pavel Pudlák, Russell Impagliazzo: Một giới hạn thấp hơn cho các thuật toán DLL cho k-SAT (phiên bản sơ bộ). SODA 2000: 128-136



2

Bài khảo sát gần đây này liệt kê việc áp dụng MCTS cho một số vấn đề tìm kiếm và tối ưu hóa ngoài các trò chơi, trong Phần 7.8:

http://pub.doc.ic.ac.uk/survey-mcts-methods/survey-mcts-methods.pdf

http://ieeexplore.ieee.org/xpl/freeabs_all.jsp?arnumber=6145622

Đối với các tên miền hoàn toàn chống lại các phương pháp dựa trên tên cướp, tôi không biết về bất kỳ sự phụ thuộc nào. Cờ vua là một thiếu sót rõ ràng từ tài liệu MCTS, có thể là do "trạng thái bẫy" làm tổn thương tìm kiếm, nhưng cũng có thể do máy tính Cờ vua được tối ưu hóa cao và tốt trong những ngày này mà mọi cách tiếp cận mới khó có thể thực hiện một vết lõm trên chúng.

Trân trọng, Cameron

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.