Bạn có thể tìm thấy bảng đầy đủ trong bài báo của họ. Xem bảng 2 trong phiên bản arXiv được liên kết bên dưới:
Cách đọc chúng:
- Các sơ đồ cho thấy tỷ lệ số lần alphazero chơi một lần mở nhất định trong các trò chơi tự đào tạo của mình như là một chức năng của thời gian đào tạo. Vì vậy, ví dụ, bạn có thể thấy rằng mối quan tâm của mình trong việc sử dụng hệ thống phòng thủ của Pháp đã đạt đến đỉnh điểm sau 2 giờ, nhưng qua đó, nó đột ngột giảm xuống gần 0, cho thấy sau 2 giờ + đào tạo, nó nhận ra các đường nổi lên từ lần mở đó là không tối ưu so với các lựa chọn khác, chẳng hạn như hệ thống phòng thủ Caro-Kann (có một cao nguyên đầy hứa hẹn sau 2 giờ nhưng cuối cùng cũng bị bỏ, âm mưu hiển thị bên dưới).
- Sau đó, bên dưới các sơ đồ, bạn sẽ thấy nó chiến đấu với Stockfish như thế nào trong 100 trận đấu cho mỗi dòng. Cuối cùng, biến thể chính của alphazero cho mỗi lần mở cũng được chỉ định bên dưới các ô. Vui lòng xem chú thích của bảng trong bài viết để biết thêm chi tiết.
Nhìn chung, tiếng Anh mở ra nổi bật: nó tiếp tục sử dụng nó một cách nhất quán trong suốt quá trình đào tạo. Cuối cùng, mô hình cho thấy một xu hướng mở linh hoạt hơn.
Sơ đồ Caro-Kann từ bảng 2: [Ref]
[Tham khảo]: Bạc, David, et al. "Làm chủ cờ vua và Shogi bằng cách tự chơi với thuật toán học tăng cường chung." bản in sẵn arXiv arXiv: 1712.01815 (2017)