Thật dễ dàng để nhảy vào một nhóm nhạc nói rằng trò chơi của Alpha-Zero là 'con người' hơn các chương trình cờ vua máy tính trước đây vì nó nhảy lên chiếc xe đối diện và nói rằng trò chơi của Alpha-Zero hoàn toàn là 'người ngoài hành tinh'. Không rõ ràng rằng trò chơi của Alpha-zero là 'con người hơn' đặc biệt là xu hướng của con người chúng ta đối với thuyết nhân hóa.
Cờ vua như một cuộc đấu tranh của tâm trí (con người)
Nhưng trong cờ vua thì xu hướng này có đúng không? Magnus Carlsen đã từng nói về việc máy tính 'truyền thống' nói chung thiếu sự sáng tạo của con người như thế nào:
"Cờ vua là tất cả về cuộc đấu tranh giữa tâm trí con người. Đó là điều làm cho nó trở nên thú vị. Cờ vua máy tính là máy móc, khô khan và nhạt nhẽo, tất nhiên các động tác rất mạnh, nhưng không có phong cách. Nếu bạn cố gắng chơi với máy tính cờ vua , bạn sẽ không chỉ thua với độ chắc chắn rất cao mà còn bị chán trong quá trình này.
Magnus Carlsen không thấy bằng chứng về phong cách chơi của con người trong các máy tính cờ vua truyền thống. Vì vậy, hãy kiểm tra xem thành tựu gần đây của Alpha-Zero có hoàn tác quan điểm này không và đưa chúng ta tới một cái gì đó gợi nhớ nhiều hơn về bản thân.
Nếu theo kiểu 'giống con người', bạn có nghĩa là chơi 'thể hiện nhiều khả năng thu hút ý thức của con người chúng ta' thì phong cách của Alpha-zero có vẻ giống con người hơn? Làm thế nào để chúng ta thực sự kiểm tra con người cận thị chủ quan này muốn chiếu lên những thứ không phải của con người? Hãy hỏi - thuật toán 'chọn lọc tốt hơn' hay thể hiện 'sự lựa chọn sáng tạo của con người hơn' theo phong cách chơi của nó?
Những người tạo ra thuật toán chỉ ra rằng không giống như Stockfish sử dụng thuật toán tìm kiếm Alpha-Beta, Alpha-Zero sử dụng thuật toán tìm kiếm cây Monte-Carlo (MCTS) chấp nhận làm đầu vào một tham số có trọng số θ được xây dựng từ các kết quả trước đó ~ Trang 3. Làm chủ cờ vua và Shogi bằng cách tự chơi với thuật toán học tăng cường chung ).
Vì vậy, thuật toán không thể hiện sự lựa chọn nào cả. Nó thực sự tham gia vào một tìm kiếm Monty-carlo ngẫu nhiên nhưng có xác suất trong đó các đường tìm kiếm khả dụng có sẵn cho nó ngày càng bị định kiến bởi các kết quả trước đó. Alpha-zero đã chọn tối ưu hóa phong cách chơi theo cách này hay đó là sự lựa chọn của các lập trình viên?
Liệu Alpha-zero luôn có sẵn tất cả các động thái có thể có để xem xét hay là một số động thái được định kiến theo thuật toán theo cách bắt chước kinh nghiệm mà con người có thể hiểu được theo cách nhân hóa?
Ban đầu nó có tất cả các động thái có sẵn cho nó vì vậy 'phong cách' của nó là hoàn toàn ngẫu nhiên. Tuy nhiên, khi tìm kiếm ngày càng bị hạn chế và tối ưu bởi thành công hay thất bại trước đó, phong cách của nó thực sự thay đổi theo chế độ mà các lập trình viên đã xiềng xích. Đây có phải là "con người hơn" không? So sánh điều này với Magnus Carlesen, người đôi khi sẽ chọn những bước đi ít tối ưu hơn vì họ sáng tạo hơn :
Magnus Carlsen: Làm tôi đánh giá cao việc tạo ra thứ gì đó độc đáo
Cờ vua như một cuộc đấu tranh của tâm trí (người ngoài hành tinh)
Con người có thể chọn tiêu chí thúc đẩy phong cách chơi của riêng họ (ví dụ tôi thường chọn xung lực và lỗi theo phong cách của riêng mình). Nhiều người thấy Alpha-zero chơi trong cả cờ vua và đi như một người ngoài hành tinh quyết định . Nick Hynes, một sinh viên tốt nghiệp tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) của MIT quan sát:
Những gì chúng ta đang thấy ở đây là một mô hình không có sự thiên vị và giả định của con người: Nó có thể học bất cứ điều gì nó xác định là tối ưu, điều này thực sự có thể mang nhiều sắc thái hơn theo quan niệm của chính chúng ta. Nó giống như một nền văn minh ngoài hành tinh phát minh ra toán học của chính nó cho phép nó làm những việc như du hành thời gian ...
Tương tự như vậy, GM Peter Heine Nielsen nói với Chess.com :
"Sau khi đọc báo nhưng đặc biệt là xem các trò chơi tôi nghĩ, ừm, tôi luôn tự hỏi sẽ thế nào nếu một loài siêu đẳng hạ cánh trên trái đất và cho chúng tôi thấy chúng chơi cờ như thế nào. Tôi cảm thấy bây giờ tôi biết."
Dường như hầu hết phản ứng với phong cách chơi nổi bật của Alpha-zero là 'trò chơi ngoài hành tinh', và không phải là 'nhiều người hơn'.
Do đó, có lý do để không đồng ý với câu trả lời ở trên có nội dung 'có'.