Có tìm kiếm cây Monte Carlo đủ điều kiện như học máy?

9

Theo hiểu biết của tôi, thuật toán tìm kiếm cây Monte Carlo (MCTS) là một giải pháp thay thế cho minimax để tìm kiếm một cây nút. Nó hoạt động bằng cách chọn một nước đi (nói chung, một nước có cơ hội cao nhất là tốt nhất), và sau đó thực hiện một phát ngẫu nhiên khi di chuyển để xem kết quả là gì. Quá trình này tiếp tục cho số lượng thời gian được phân bổ.

Điều này không giống như học máy, mà là một cách để vượt qua một cái cây. Tuy nhiên, tôi đã nghe nói rằng AlphaZero sử dụng MCTS, vì vậy tôi bối rối. Nếu AlphaZero sử dụng MCTS thì tại sao AlphaZero lại học? Hay AlphaZero đã thực hiện một số loại học máy trước khi nó chơi bất kỳ trận đấu nào, và sau đó sử dụng trực giác mà nó có được từ học máy để biết cách di chuyển nào dành nhiều thời gian hơn để chơi với MCTS?

— Vô minh quán tính
nguồn

6

Monte Carlo Tree Search thường không được coi là một kỹ thuật học máy, mà là một kỹ thuật tìm kiếm. Có nhiều điểm tương đồng (MCTS cố gắng học các mẫu chung từ dữ liệu, theo một nghĩa nào đó, nhưng các mẫu không chung chung), nhưng thực sự MCTS không phải là một thuật toán phù hợp cho hầu hết các vấn đề học tập.

AlphaZero là sự kết hợp của một số thuật toán. Một là MCTS, nhưng MCTS cần một chức năng để cho nó biết các trạng thái khác nhau của trò chơi có thể tốt như thế nào (hoặc nếu không, nó cần phải mô phỏng toàn bộ trò chơi). Một cách để xử lý chức năng này trong một trò chơi như cờ vua hoặc cờ vây là ước tính nó bằng cách đào tạo một mạng lưới thần kinh, đó là những gì các nhà nghiên cứu Deep Mind đã làm. Đây là thành phần học tập của AlphaZero.

— John Doucette
nguồn

6

Câu trả lời của John là chính xác ở chỗ MCTS theo truyền thống không được xem là phương pháp tiếp cận Machine Learning mà là thuật toán tìm kiếm trên cây và AlphaZero kết hợp điều này với các kỹ thuật Machine Learning (Mạng lưới thần kinh sâu và học tăng cường).

Tuy nhiên, có một số điểm tương đồng thú vị giữa chính MCTS và Machine Learning. Theo một nghĩa nào đó, MCTS cố gắng "học" giá trị của các nút từ kinh nghiệm được tạo thông qua các nút đó. Điều này rất giống với cách Học tăng cường (RL) hoạt động (mà bản thân nó thường được mô tả như một tập hợp con của Học máy).

Một số nhà nghiên cứu cũng đã thử nghiệm thay thế cho giai đoạn Backpropagation truyền thống của MCTS (theo quan điểm RL, có thể được mô tả là thực hiện sao lưu Monte-Carlo) dựa trên các phương pháp RL khác (ví dụ, sao lưu tạm thời khác biệt) . Một bài viết toàn diện mô tả các loại tương đồng giữa MCTS và RL là: Về Tìm kiếm và củng cố cây Monte Carlo .

Cũng lưu ý rằng giai đoạn Lựa chọn của MCTS thường được coi là một chuỗi các vấn đề Kẻ cướp đa vũ trang nhỏ, và những vấn đề đó cũng có kết nối mạnh mẽ với RL.

TL; DR : MCTS thường không được xem là một kỹ thuật Machine Learning, nhưng nếu bạn kiểm tra kỹ, bạn có thể tìm thấy rất nhiều điểm tương đồng với ML (đặc biệt là Học tăng cường).

— Dennis Soemers
nguồn

1

Chào mừng bạn đến lĩnh vực khai thác định nghĩa ngữ nghĩa trong AI! Theo Encyclopedia Britannica ML là một môn học của người Viking liên quan đến việc triển khai phần mềm máy tính có thể tự học. Có một loạt các định nghĩa khác cho ML nhưng nhìn chung tất cả chúng đều mơ hồ, nói điều gì đó về việc học tập của Cameron, về kinh nghiệm, một vài thứ khác nhau, theo thứ tự khác nhau. Không có định nghĩa điểm chuẩn nổi tiếng mà hầu hết mọi người sử dụng, vì vậy trừ khi người ta muốn đề xuất một cái, bất cứ điều gì một bài đăng trên này cần phải được sao lưu bởi các tài liệu tham khảo.

Theo định nghĩa của Encyclopedia Britannica, trường hợp gọi MCTS là một phần của ML khá mạnh (Chaslot, Coulom và cộng sự làm việc từ năm 2006-8 được sử dụng để tham khảo MCTS). Có hai chính sách được sử dụng trong MCTS, chính sách cây và chính sách mô phỏng. Tại thời điểm quyết định, chính sách cây cập nhật các giá trị hành động bằng cách mở rộng cấu trúc cây và sao lưu các giá trị từ bất cứ thứ gì nó tìm thấy từ tìm kiếm. Không có mã hóa cứng nào mà các nút nên được chọn / mở rộng; tất cả xuất phát từ việc tối đa hóa phần thưởng từ số liệu thống kê. Các nút gần với gốc xuất hiện ngày càng thông minh hơn khi chúng học cách để bắt chước các phân phối / trạng thái và / hoặc các giá trị hành động từ các giá trị tương ứng từ thực tế. Liệu điều này có thể được gọi là tự động không, có phải là một câu hỏi khó không kém bởi vì cuối cùng, chính con người đã viết ra các công thức / lý thuyết mà MCTS sử dụng.

— Johan
nguồn