Tôi nhận thức được các câu hỏi liên quan và câu trả lời tuyệt vời trong cùng một chủ đề như Hiểu về AlphaZero . Các câu hỏi của tôi có liên quan đến hình dưới đây về quy trình tìm kiếm của AlphaZero
Con số này xuất phát từ bài báo Khoa học trên AlphaZero (Hình 4, trang 4). Tìm kiếm được minh họa cho một vị trí từ trò chơi rất hay 1 AlphaZero (trắng) và Stockfish (đen) sau 29. ... Qf8. Phần còn lại của ghi chú như sau
Trạng thái bên trong MCTS của AlphaZero được tóm tắt sau 10 ^ 2, ..., 10 ^ 6 mô phỏng. Mỗi tóm tắt cho thấy 10 tiểu bang được truy cập nhiều nhất. Giá trị ước tính được hiển thị ở mỗi trạng thái, từ phối cảnh của màu trắng, được chia tỷ lệ thành phạm vi [0, 100]. Số lượt truy cập của mỗi trạng thái, liên quan đến trạng thái gốc của cây đó, tỷ lệ thuận với độ dày của vòng tròn biên giới. AlphaZero xem xét 30.c6 nhưng cuối cùng chơi 30.d5.
Tôi sẽ đánh giá cao một số hiểu biết về các câu hỏi sau đây. (Điều quan trọng cần lưu ý rằng tôi là một người chơi cờ đơn thuần không có kiến thức về khoa học máy tính. Tôi vẫn thấy điều này hấp dẫn)
- Điều gì thể hiện các mô phỏng 10 ^ 2, ..., 10 ^ 6? Tôi rất bối rối vì trong Tài liệu bổ sung họ lưu ý rằng '`Trong quá trình đào tạo, mỗi MCTS đã sử dụng 800 mô phỏng' '.
- Điều đó có nghĩa là mỗi MCTS sử dụng 800 mô phỏng?
- Tôi giả định rằng giá trị 60 trong vòng tròn màu đỏ trong các mô phỏng 10 ^ 2 đại diện cho số điểm mong đợi 60% cho màu trắng, là giá trị trung bình của tất cả các đánh giá vị trí. Tuy nhiên, trung bình đơn giản của 9 di chuyển được hiển thị bằng 61,2. Tôi đoán rằng các động thái khác cũng được xem xét và mô phỏng. Tôi có ở đây không?
- Tôi giả sử rằng đối với các mô phỏng 10 ^ 3 đến 10 ^ 6, họ chỉ đưa ra một mẫu minh họa của các nhánh. Mô phỏng 10 ^ 5 không được hiển thị sau 34.Rce1 hoặc dừng sau 34.Rce1? Tôi đoán rằng mỗi mô phỏng đi cho đến khi số điểm dự kiến là 100%.