Gần đây, có tin tức rằng nhóm nghiên cứu DeepMind của Alphabet đã mở rộng công cụ học máy của họ để chơi cả Shogi và cờ vua. Rõ ràng, chỉ sau vài giờ tự học, nghĩa là chỉ chơi với chính quy tắc của trò chơi, hiệu suất của nó trong cờ vua đã vượt qua các công cụ hàng đầu hiện nay như Stockfish 8. Cá nhân tôi chưa biết chính xác các trận đấu được thiết lập như thế nào, vì trong điều kiện nào Stockfish được thiết lập để thực hiện, vì nếu thời gian tính toán bị giới hạn thì động cơ có thể thực hiện rất kém. Trong mọi trường hợp, đây là một thành tích rất ấn tượng, bởi vì ngay cả khi nó chỉ ra rằng người ta có thể thiết lập Stockfish một cách tối ưu hơn, với vài giờ huấn luyện bổ sung, AlphaZero sẽ vượt qua mức độ chơi, nghĩa là về cơ bản mạnh hơn AlphaZero động cơ cờ tiêu chuẩn dựa trên các chức năng đánh giá heuristic.
Bây giờ dưới ánh sáng của tin tức này, sẽ thật tuyệt nếu ai đó có thể giải thích về sự khác biệt chính trong hoạt động của một cỗ máy học cờ vua so với các động cơ tiêu chuẩn mà chúng ta đều quen sử dụng. Cụ thể hơn:
- Không phải là chức năng đánh giá mà AlphaZero sử dụng, được đào tạo bằng phương pháp học máy, cuối cùng chỉ là một chức năng đánh giá heuristic khác? Nếu có, sẽ công bằng khi nói rằng sự khác biệt cơ bản giữa các chức năng đánh giá của hai động cơ, là thực tế rằng Stockfish có chức năng đánh giá tối ưu được điều chỉnh bằng tay bởi con người, nghĩa là định nghĩa của chức năng tối ưu hóa được cố định, trong khi đối với AlphaZero, chức năng đánh giá mục tiêu liên tục được xác định lại thông qua đào tạo bổ sung (ví dụ thông qua tự chơi)? Làm cho cái sau trở nên năng động hơn rất nhiều của một cách tiếp cận.
Cuối cùng, nói một cách mơ hồ, một động cơ như Stockfish, áp dụng chức năng đánh giá của nó cho cây di chuyển có thể, quyết định nên giữ nhánh nào và loại nào sẽ rơi, sau đó thông qua một bê tông sâu hơnphân tích từng nhánh, một lần nữa thông qua chức năng đánh giá của nó, nó chỉ ra nhánh nào mang lại giá trị cao nhất và trở thành biến thể chính (tất nhiên có nhiều kỹ thuật tiến bộ xung quanh quá trình này để cắt tỉa hiệu quả cây lớn này). Có nghĩa, đối với mỗi vị trí, thói quen cực kỳ cụ thể này phải được lặp lại để Stockfish đưa ra quyết định. Ngược lại, tôi tưởng tượng AlphaZero làm một điều gì đó rất khác, cụ thể là, nó không dựa vào phân tích cụ thể về cây di chuyển có thể tại một vị trí nhất định, thay vào đó, chức năng đánh giá của nó về cơ bản gán một giá trị cho vị trí đó (theo trực giác tương tự như việc đặt vị trí hiện tại tương tự như tất cả các vị trí khác mà nó đã được đào tạo), mà không bao giờ phải thực hiện cụ thểphân tích theo cách mà Stockfish, hoặc thậm chí là một người chơi. Đây có phải là một bức tranh âm thanh về hoạt động của AlphaZero hoặc các công cụ học máy được đào tạo tương tự không?
Chúng tôi biết rằng không gian của các vị trí cờ vua đủ lớn để mọi nỗ lực lấy mẫu tất cả các vị trí trong đó sẽ thậm chí về nguyên tắc hoàn toàn vô ích (độ phức tạp EXPTIME), điều đó cho thấy rằng không có lượng đào tạo nào thông qua tự chơi là đủ để đã khám phá tất cả các vị trí, vậy thì kết quả cuối cùng có thể tốt như thế nào mặc dù có khả năng khám phá một phần nhỏ các vị trí của không gian thông qua tự chơi? Ý tưởng chính ở đây khi chơi là gì?
Tôi đoán là, AlphaZero có một cách rất tối ưu để so sánh bất kỳ vị trí nhất định nào, ngay cả khi mới, với vị trí được truy cập trước đó trong tập huấn luyện của nó, so sánh càng gần, đánh giá càng có thể rút ra từ so sánh. Ví dụ, khi nó chơi Bg5 di chuyển trong trò chơi 5 , nó phải khám phá một cấu trúc tương tự trong quá trình đào tạo của nó, tức là có thể nhận ra rằng vị trí này về cơ bản tương đương với (một cách hoàn toàn khác) được nghiên cứu trong khóa đào tạo của nó, trong tương tự như cách nhận dạng khuôn mặt đạt được thông qua học máy, và kết quả là nó kết luận Bg5 nên là bước đi tốt nhất, cũng như trong đó (hoặc những) vị trí tương tự khác. Đây có phải là một dự đoán chính xác? Tôi không biết làm thế nào so sánh này được thực hiện, vì chắc chắn không thể lưu trữ tất cả các vị trí được đào tạo và phân tích thông qua chúng mỗi lần.
Đây chỉ đơn thuần là một nỗ lực để có được những hiểu biết sâu sắc về hoạt động của AlphaZero và cách đưa ra quyết định đưa ra một vị trí.