Danh sách cách AlphaZero đánh giá các lần mở

Trong quá trình học Cờ vua và ngày càng mạnh hơn, mỗi giây AlphaZero đã học mở. Một số được chơi thường xuyên ngay từ đầu, nhưng đã mất dần sự nổi tiếng của AlphaZero (ví dụ: Quốc phòng Pháp). Bạn có thể tìm thấy bốn ví dụ ở đây: Tương lai là đây - AlphaZero học cờ vua

Tôi đã đọc ở đâu đó rằng AlphaZero đã chơi (và vì thế: đã đánh giá) 12 lần mở. Tôi muốn xem một danh sách về chúng, có lẽ với các biểu đồ (không chỉ có 4 đề cập ở trên).

Cảm ơn trước.

opening alphazero

— BNetz
nguồn

Bạn có thể tìm thấy bảng đầy đủ trong bài báo của họ. Xem bảng 2 trong phiên bản arXiv được liên kết bên dưới:

Làm chủ cờ vua và Shogi bằng cách tự chơi với thuật toán học tăng cường chung https://arxiv.org/pdf/1712.01815.pdf

Cách đọc chúng:

Các sơ đồ cho thấy tỷ lệ số lần alphazero chơi một lần mở nhất định trong các trò chơi tự đào tạo của mình như là một chức năng của thời gian đào tạo. Vì vậy, ví dụ, bạn có thể thấy rằng mối quan tâm của mình trong việc sử dụng hệ thống phòng thủ của Pháp đã đạt đến đỉnh điểm sau 2 giờ, nhưng qua đó, nó đột ngột giảm xuống gần 0, cho thấy sau 2 giờ + đào tạo, nó nhận ra các đường nổi lên từ lần mở đó là không tối ưu so với các lựa chọn khác, chẳng hạn như hệ thống phòng thủ Caro-Kann (có một cao nguyên đầy hứa hẹn sau 2 giờ nhưng cuối cùng cũng bị bỏ, âm mưu hiển thị bên dưới).
Sau đó, bên dưới các sơ đồ, bạn sẽ thấy nó chiến đấu với Stockfish như thế nào trong 100 trận đấu cho mỗi dòng. Cuối cùng, biến thể chính của alphazero cho mỗi lần mở cũng được chỉ định bên dưới các ô. Vui lòng xem chú thích của bảng trong bài viết để biết thêm chi tiết.

Nhìn chung, tiếng Anh mở ra nổi bật: nó tiếp tục sử dụng nó một cách nhất quán trong suốt quá trình đào tạo. Cuối cùng, mô hình cho thấy một xu hướng mở linh hoạt hơn.

Sơ đồ Caro-Kann từ bảng 2: [Ref]

[Tham khảo]: Bạc, David, et al. "Làm chủ cờ vua và Shogi bằng cách tự chơi với thuật toán học tăng cường chung." bản in sẵn arXiv arXiv: 1712.01815 (2017)

— Ellie
nguồn

Cảm ơn! Thật thú vị, rằng Nữ hoàng Gambit dường như rất lôi cuốn và AlphaZero trong King Gambit thậm chí không thắng được một trò chơi với Đen!

— BNetz

Đã khá lâu tôi mới đọc báo, nhưng tôi có cảm giác rằng anh ấy gần như đã dừng chơi e4 sau đó và bắt đầu sử dụng 1.Nf3 nếu tôi nhớ tốt. Đó sẽ là lý do mạnh mẽ cho việc không có Caro-Kan, Pháp, Sicilia ...

— hoacin

@hoacin Theo tôi thấy, không có gì được đề cập trong bài báo về tỷ lệ số lần 1. Nf3được chọn. Mặt khác, trong bảng 2 của bài báo họ chỉ phân tích các lỗ thông thường của con người, trong số đó 1. Nf3không tham gia. Hơn nữa, như trong bài báo: "Mỗi lần mở này được AlphaZero phát hiện và chơi thường xuyên trong quá trình luyện tập tự chơi." Điều đó có nghĩa là các số liệu thống kê được thảo luận được thu thập độc lập cho dù có 1. Nf3được áp dụng thường xuyên hơn hay không. Nhân tiện, tôi tin rằng bạn có nghĩa là " nó " chứ không phải " anh ấy ". :)

— Ellie

Chúng ta phải có tài khoản, rằng Alpha Zero đã học nhưng chơi với một động cơ có một cuốn sách mở đầu. Do đó, sẽ có ý nghĩa hơn khi nghĩ rằng thuật toán Alpha Zero là một loại thăm dò giải mã cuốn sách mở động cơ oponent.

— djnavas

@djnavas Stockfish đã không sử dụng một cuốn sách mở đầu trong trận đấu đó, xem liên kết. Hơn nữa, trong bài báo, họ nói rõ ràng rằng các lỗ mở được tự khám phá một cách độc lập, có nghĩa đơn giản bằng cách xem xét các bước di chuyển tối ưu (trong các trò chơi chống lại chính nó) mà không có bất kỳ kiến thức đầu vào nào về lý thuyết mở hiện có.

— Ellie

Kiểm tra giấy , đặc biệt trang sáu. Thực sự có 12 lần mở, một số trong đó AlphaZero tiếp tục chơi, một số khác được chơi trong một thời gian và sau đó bị loại bỏ.

— Hấp dẫn
nguồn