Theo hiểu biết của tôi, thuật toán tìm kiếm cây Monte Carlo (MCTS) là một giải pháp thay thế cho minimax để tìm kiếm một cây nút. Nó hoạt động bằng cách chọn một nước đi (nói chung, một nước có cơ hội cao nhất là tốt nhất), và sau đó thực hiện một phát ngẫu nhiên khi di chuyển để xem kết quả là gì. Quá trình này tiếp tục cho số lượng thời gian được phân bổ.
Điều này không giống như học máy, mà là một cách để vượt qua một cái cây. Tuy nhiên, tôi đã nghe nói rằng AlphaZero sử dụng MCTS, vì vậy tôi bối rối. Nếu AlphaZero sử dụng MCTS thì tại sao AlphaZero lại học? Hay AlphaZero đã thực hiện một số loại học máy trước khi nó chơi bất kỳ trận đấu nào, và sau đó sử dụng trực giác mà nó có được từ học máy để biết cách di chuyển nào dành nhiều thời gian hơn để chơi với MCTS?