Các tác giả LC0 đã nghiên cứu bài báo AlphaZero rất cẩn thận, thực hiện các thí nghiệm của riêng họ và họ đã đi đến kết luận sau đây. AlphaZero, mặc dù gọi đó là thuật toán tìm kiếm cây Monte Carlo (Tất cả các phương pháp Monte Carlo theo định nghĩa rõ ràng là ngẫu nhiên), không sử dụng bất kỳ sự không xác định rõ ràng nào sau một số lần di chuyển nhất định (tôi tin rằng đây là 15 lần di chuyển).
Có hai phần khác nhau để MCTS có thể đưa sự ngẫu nhiên vào lựa chọn di chuyển.
Trong giai đoạn tìm kiếm, AlphaZero chỉ định các trọng số để di chuyển khám phá dựa trên 2 yếu tố: xác suất thắng được xác định bởi mạng lưới thần kinh và một số thống kê kích thước cây con của cây con và cây con di chuyển. Yếu tố đầu tiên đảm bảo rằng các dòng hứa hẹn hơn được đánh giá đầu tiên và yếu tố thứ hai đảm bảo rằng các dòng ít hứa hẹn hơn cuối cùng sẽ được tìm kiếm. Trong một triển khai MCTS tự nhiên, nó sẽ sử dụng các lựa chọn ngẫu nhiên có trọng số giữa các khả năng có trọng số này. Trong thực tế, AlphaZero chọn giữa những điều này hoàn toàn xác định, bằng cách chỉ chọn trọng lượng tối đa mỗi lần. Nó thực hiện điều này bởi vì tính ngẫu nhiên trong bước này không có ích và trung bình chỉ làm động cơ bị phân tâm khỏi các biến thể quan trọng hơn.
Trong giai đoạn di chuyển, nó có thể đưa ra lựa chọn có trọng số giữa các ứng cử viên di chuyển đã có những đánh giá sâu sắc và chính xác được tính theo giai đoạn tìm kiếm. Ý tưởng là thực hiện các động tác không tối ưu một chút để cố gắng giới thiệu sự đa dạng trong cách chơi của nó, vì vậy nó không chơi cùng một trò chơi mỗi lần. Điều này đặc biệt quan trọng trong quá trình đào tạo, nhưng cũng dẫn đến kết quả trận đấu thú vị hơn. Hóa ra AlphaZero chỉ thực hiện điều này trong 15 lần di chuyển đầu tiên hoặc lâu hơn, sau đó nó luôn chọn cách di chuyển tốt nhất. Tính quyết định này hóa ra rất cần thiết cho lối chơi kết thúc cực kỳ chính xác của nó, trong đó những khác biệt nhỏ trong đánh giá hóa ra lại là sự khác biệt giữa hòa và thắng.
Điều này đúng trong cả đào tạo và đánh giá.
Nói cách khác, một khi nó ra khỏi phần mở đầu, lối chơi của nó mang tính quyết định như một động cơ truyền thống.
Tuy nhiên, lưu ý rằng nó sẽ có cùng loại đa luồng và kiểm soát thời gian không xác định như các động cơ truyền thống.