Alpha Zero có nhiều người hơn thế nào?


35

Tôi có một câu hỏi có thể ngây thơ về AlphaZero. Tôi đã thấy nó được mô tả là chơi theo kiểu "giống người" hơn các máy tính khác, nhưng dù có làm gì, nó cũng đạt được khoảng 100 điểm ELO bằng cách thực hiện. Kasparov, và nhiều người khác, đã tuyên bố rằng một người mạnh mẽ hợp tác với máy tính sẽ đánh bại một máy tính mạnh (có lẽ khoảng 100 ELO ??). Vì vậy, một câu hỏi rõ ràng là, AlphaZero sẽ so sánh như thế nào với sự kết hợp "nhân mã"?

Chỉ nhìn vào một vài trò chơi, điều tôi nhận thấy là hầu hết các máy tính đều chơi các trò chơi mở rộng tối đa hóa khả năng di chuyển của chúng, nhưng AlphaZero dường như rất quan tâm để hạn chế khả năng di chuyển của đối thủ. Trong một người chơi con người tôi sẽ mô tả điều này như một vấn đề về phong cách, không nhiều hay ít con người.


4
Đối với những gì nó có giá trị, tuyên bố đó từ Kasparov là rất cũ. Một con người và máy tính hợp tác ("cờ tiên tiến" hoặc "cờ nhân mã") không thể vượt trội hơn máy tính của chính nó - máy tính quá tốt - Stockfish 8 được đánh giá ở đâu đó khoảng ~ 3400 IIRC, so với ~ 2825 cho Magnus Carlsen .
Stephen Touset

8
@StephenTouset Chỉ cần thận trọng với xếp hạng Elo cho động cơ. Những cái tôi thường thấy nhất là từ so sánh động cơ so với động cơ chưa được chuẩn hóa thành người thật. Trích dẫn Wikipedia có liên quan : "Những xếp hạng này, [...] không liên quan trực tiếp đến xếp hạng FIDE Elo hoặc với các xếp hạng liên đoàn cờ khác của người chơi. Ngoại trừ một số người so với các trò chơi máy mà SSDF đã tổ chức nhiều năm trước từ cấp độ ngày nay), không có sự hiệu chỉnh nào giữa bất kỳ danh sách xếp hạng nào và nhóm người chơi này. "
mbrig

1
Tôi nghĩ rằng con người có thể nhưng không kiểm soát thời gian tiêu chuẩn. Trò chơi tương ứng dài nên ok.
SmallChess

4
ugh, AlphaZero là một sản phẩm của Google. Vì vậy, không có gì lạ khi bạn sẽ nghe nhiều tuyên truyền về nó hơn các sản phẩm của các công ty khác. Tôi đoán họ có thỏa thuận tốt hơn với các tác giả và nhà xuất bản. Mang nó với một đống muối, giống như bất cứ điều gì về Waymo.
coderworks

Câu trả lời:


33

Trang 5 trong bài báo có câu trả lời của bạn:

... AlphaZero bù cho số lượng đánh giá thấp hơn bằng cách sử dụng mạng lưới thần kinh sâu của nó để chi phí có chọn lọc hơn nhiều cho các biến thể hứa hẹn nhất - được cho là cách tiếp cận "giống con người" hơn đối với cờ vua ...

"Chọn lọc" là từ khóa. Điều đó nghĩa là gì? Hãy sử dụng vị trí sau đây cho ví dụ của chúng tôi:

https://chess24.com/en/read/news/london- classic-5-caruana-shows-how-it-s-done

Di chuyển

Đây là một trò chơi gần đây đã giành được bởi Caruana trong London Chess Classic 2017. Giám mục Trắng đang bị tấn công, và bạn biết bạn phải di chuyển nó. Nhưng ở đâu?

Khả năng (không mất một mảnh):

  • Bh4
  • Be3
  • Bd2
  • Bc1

Caruana đang nghĩ gì?

Tôi cảm thấy như mình sẽ thua ở một thời điểm nào đó, nhưng khi tôi nhìn thấy, 25.Bc1 tôi đột nhiên bắt đầu lạc quan hơn một chút về cơ hội của mình. Tôi nhận ra vị trí của mình rất tệ, nhưng ít nhất tôi đã có một kế hoạch và đó thực sự là tất cả những gì tôi cần cho sự tự tin ở vị trí này. Khi tôi nhìn thấy b3 này, c4 vị trí đã tăng gấp đôi và tôi có một số cơ hội.

Đây là suy nghĩ của con người và là một "động thái của con người". Caruana đã không coi Bh4, Be3 và Bd2 vì chúng "trông" tệ. Anh ta chỉ tập trung và duy nhất vào động thái Bc1.

Con người chơi cờ rất chọn lọc , chúng ta loại bỏ những động tác không hợp lý vì chúng ta không có thời gian để kiểm tra tất cả các khả năng như nhau.

  • Chúng tôi loại bỏ Bh4 vì nó giải phóng sự căng thẳng trên con tốt h6
  • Chúng tôi loại bỏ Be3 vì nó chặn hai tân binh trắng ở hạng ba
  • Chúng tôi loại bỏ Bd2 vì nó chặn nữ hoàng Trắng về phía nhà vua

Đó là những gì AlphaZero đang cố tuyên bố trong bài báo. Họ tuyên bố thuật toán của họ, mặc dù chậm hơn Stockfish, có thể chọn lọc các bước di chuyển tốt hơn Stockfish trong tìm kiếm. Trong khi Stockfish nhanh hơn, nó lãng phí thời gian vào những động thái xấu. AlphaZero chậm hơn, nhưng chính xác hơn (giống như những gì Caruana đang làm).

Ví dụ, AlphaZero có thể dành 80% tài nguyên cho Bc1 và 20% cho tất cả các động thái giám mục khác. Stockfish có thể cung cấp 25% cho mỗi lần di chuyển (Bh4, Be3, Bd2, Bc1).


1
Vì vậy, về cơ bản, phong cách chơi không nhất thiết phải giống con người hơn, nhưng cách tiếp cận để tìm ra bước tiếp theo để chơi là gì. Ít nhất là theo bài báo. Ngoài ra, tôi không thể chỉnh sửa nó, nhưng trích dẫn Caruana của bạn có một lỗi đánh máy khá lớn: "Khi tôi thấy b3, c4 của anh ấy" phải là "Khi tôi thấy b3, c4 này"
Arthur

@Arthur Theo tờ giấy (và chỉ có tờ giấy), phong cách chơi không nhất thiết phải giống con người hơn. Tôi không nói KHÔNG, nhưng không có gì trong bài báo nói điều đó.
SmallChess

Các thuật toán Monte Carlo có một tham số để kiểm soát khám phá x khai thác, do đó, các chuyển động mà alpha-beta sẽ không bao giờ xem xét (do thời gian), alpha zero thực hiện.
Fernando

@Fernando Bạn có thể giải thích những gì bạn trả lời? Tôi đấu tranh để xem điểm. Ngoài ra, tôi bối rối bởi 'không bao giờ xem xét do thời gian'. Tìm kiếm Alpha-beta bỏ qua các nhánh rõ ràng tồi tệ hơn một số nhánh khác đã được khám phá. Tôi không thấy những gì nó phải làm với thời gian.
IA Petr Harasimovic

Về cơ bản, nếu một dòng là +0,32 và dòng kia là +0,13, AlphaZero sẽ dành thời gian cho dòng trước.
Jossie Calderon

16

Hầu hết các động cơ mạnh nhấn mạnh vào việc nhìn rất sâu, với chi phí có chức năng đánh giá bề ngoài. Trong bài báo AlphaZero, họ nói rằng Stockfish nhìn 70 triệu vị trí mỗi giây.

Các đại kiện tướng của con người nhìn vào rất ít vị trí thực sự so với động cơ, nhưng họ có cảm giác tốt hơn ai là người giỏi hơn ở một vị trí nhất định.

AlphaZero chỉ xem xét 80.000 vị trí mỗi giây, do đó, nó dành nhiều thời gian hơn cho chức năng đánh giá của mình.

Đó là ý nghĩa trong đó họ có nghĩa là "giống con người hơn", không có gì hơn.


11

AlphaZero dường như đã chơi như một "nhân mã" thông thường -> GM tương phản với sự hỗ trợ của động cơ.

Là một FM tôi sẽ thích thú hơn nhiều khi chơi AlphaZero so với động cơ thông thường.

Một so sánh sẽ là nó chơi như Karpov với chiến thuật hoàn hảo. (Game 9 AlphaZero chơi một đoạn trong 15 phút, rất giống Tal).

Không chỉ là phong cách, AlphaZero mang đến ấn tượng về việc hiểu vị trí tốt hơn Stockfish.

AlphaZero cũng không bị ảnh hưởng bởi Horizon Effect mà TẤT CẢ các động cơ cờ vua đã phải chịu đựng cho đến bây giờ. Hết lần này đến lần khác, nó có thể đánh giá chính xác một vị trí di chuyển xuống nhiều hơn Stockfish.

Đây là một ví dụ:

AlphaZero - Stockfish, Alphazero vs Stockfish: AlphaZero - Stockfish, 2017-12-05, 1-0
1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. NF3 cxd4 7. Nb5 BB4 + 8. BD2 Bc5 9. b4 Be7 10 Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13. cxd4 Nb6 14. a4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 B6 18. g4 h5 19. Qg1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. RC2 Kd8 24. Rac1 Qe8 25. RC7 RC8 26. Rxc8 + Bxc8 27. RC6 bb7 28. RC2 Kd7 29. Ng5 Be7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 Rg8 33. Qh6 Qf7 34. f6 Kd8 35. Kd2 Kd7 36. RC1 Kd8 37. QE3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 B3 41. KC3 Bc8 42. Kxb3 Bd7 43. KB4 Be8 44. RA1 Kc7 45. a5 Bd7 46. axb6 + Kxb6 47. RA6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

AlphaZero đóng vai vua đến trung tâm 16. Kxd2! trong một game giữa đánh giá chính xác rằng Black sẽ không thể tận dụng lợi thế của nó.

Nó có thể đánh giá chính xác một mảnh hy sinh 30. Bxg6! trong khi các động cơ thông thường không thể thấy rằng chúng bị mất cho một số di chuyển.

  1. f5 cũng khá đẹp

Có những ví dụ khác như trao đổi Hy sinh trong Trò chơi 3.


8

Thật dễ dàng để nhảy vào một nhóm nhạc nói rằng trò chơi của Alpha-Zero là 'con người' hơn các chương trình cờ vua máy tính trước đây vì nó nhảy lên chiếc xe đối diện và nói rằng trò chơi của Alpha-Zero hoàn toàn là 'người ngoài hành tinh'. Không rõ ràng rằng trò chơi của Alpha-zero là 'con người hơn' đặc biệt là xu hướng của con người chúng ta đối với thuyết nhân hóa.

Cờ vua như một cuộc đấu tranh của tâm trí (con người)

Nhưng trong cờ vua thì xu hướng này có đúng không? Magnus Carlsen đã từng nói về việc máy tính 'truyền thống' nói chung thiếu sự sáng tạo của con người như thế nào:

"Cờ vua là tất cả về cuộc đấu tranh giữa tâm trí con người. Đó là điều làm cho nó trở nên thú vị. Cờ vua máy tính là máy móc, khô khan và nhạt nhẽo, tất nhiên các động tác rất mạnh, nhưng không có phong cách. Nếu bạn cố gắng chơi với máy tính cờ vua , bạn sẽ không chỉ thua với độ chắc chắn rất cao mà còn bị chán trong quá trình này.

Magnus Carlsen không thấy bằng chứng về phong cách chơi của con người trong các máy tính cờ vua truyền thống. Vì vậy, hãy kiểm tra xem thành tựu gần đây của Alpha-Zero có hoàn tác quan điểm này không và đưa chúng ta tới một cái gì đó gợi nhớ nhiều hơn về bản thân.

Nếu theo kiểu 'giống con người', bạn có nghĩa là chơi 'thể hiện nhiều khả năng thu hút ý thức của con người chúng ta' thì phong cách của Alpha-zero có vẻ giống con người hơn? Làm thế nào để chúng ta thực sự kiểm tra con người cận thị chủ quan này muốn chiếu lên những thứ không phải của con người? Hãy hỏi - thuật toán 'chọn lọc tốt hơn' hay thể hiện 'sự lựa chọn sáng tạo của con người hơn' theo phong cách chơi của nó?

Những người tạo ra thuật toán chỉ ra rằng không giống như Stockfish sử dụng thuật toán tìm kiếm Alpha-Beta, Alpha-Zero sử dụng thuật toán tìm kiếm cây Monte-Carlo (MCTS) chấp nhận làm đầu vào một tham số có trọng số θ được xây dựng từ các kết quả trước đó ~ Trang 3. Làm chủ cờ vua và Shogi bằng cách tự chơi với thuật toán học tăng cường chung ).

Vì vậy, thuật toán không thể hiện sự lựa chọn nào cả. Nó thực sự tham gia vào một tìm kiếm Monty-carlo ngẫu nhiên nhưng có xác suất trong đó các đường tìm kiếm khả dụng có sẵn cho nó ngày càng bị định kiến ​​bởi các kết quả trước đó. Alpha-zero đã chọn tối ưu hóa phong cách chơi theo cách này hay đó là sự lựa chọn của các lập trình viên?

Liệu Alpha-zero luôn có sẵn tất cả các động thái có thể có để xem xét hay là một số động thái được định kiến ​​theo thuật toán theo cách bắt chước kinh nghiệm mà con người có thể hiểu được theo cách nhân hóa?

Ban đầu nó có tất cả các động thái có sẵn cho nó vì vậy 'phong cách' của nó là hoàn toàn ngẫu nhiên. Tuy nhiên, khi tìm kiếm ngày càng bị hạn chế và tối ưu bởi thành công hay thất bại trước đó, phong cách của nó thực sự thay đổi theo chế độ mà các lập trình viên đã xiềng xích. Đây có phải là "con người hơn" không? So sánh điều này với Magnus Carlesen, người đôi khi sẽ chọn những bước đi ít tối ưu hơn vì họ sáng tạo hơn :

Magnus Carlsen: Làm tôi đánh giá cao việc tạo ra thứ gì đó độc đáo

Cờ vua như một cuộc đấu tranh của tâm trí (người ngoài hành tinh)

Con người có thể chọn tiêu chí thúc đẩy phong cách chơi của riêng họ (ví dụ tôi thường chọn xung lực và lỗi theo phong cách của riêng mình). Nhiều người thấy Alpha-zero chơi trong cả cờ vua và đi như một người ngoài hành tinh quyết định . Nick Hynes, một sinh viên tốt nghiệp tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) của MIT quan sát:

Những gì chúng ta đang thấy ở đây là một mô hình không có sự thiên vị và giả định của con người: Nó có thể học bất cứ điều gì nó xác định là tối ưu, điều này thực sự có thể mang nhiều sắc thái hơn theo quan niệm của chính chúng ta. Nó giống như một nền văn minh ngoài hành tinh phát minh ra toán học của chính nó cho phép nó làm những việc như du hành thời gian ...

Tương tự như vậy, GM Peter Heine Nielsen nói với Chess.com :

"Sau khi đọc báo nhưng đặc biệt là xem các trò chơi tôi nghĩ, ừm, tôi luôn tự hỏi sẽ thế nào nếu một loài siêu đẳng hạ cánh trên trái đất và cho chúng tôi thấy chúng chơi cờ như thế nào. Tôi cảm thấy bây giờ tôi biết."

Dường như hầu hết phản ứng với phong cách chơi nổi bật của Alpha-zero là 'trò chơi ngoài hành tinh', và không phải là 'nhiều người hơn'.

Do đó, có lý do để không đồng ý với câu trả lời ở trên có nội dung 'có'.


3
Câu trả lời của bạn khá sai lệch và không chính xác ở những nơi. Việc sử dụng MCTS không phải là sự khác biệt quan trọng, đây không phải là lý do tại sao nó đánh bại Stockfish. Họ cũng có thể sử dụng tìm kiếm alpha-beta, họ chỉ cảm thấy MCTS hoạt động tốt hơn với họ. Các yếu tố chính của thuật toán AlphaZero là mạng thần kinh tích chập rất sâu, học tăng cường (tức là mạng được điều chỉnh bằng cách tự chơi) và tìm kiếm cây (điều này xảy ra là MCTS nhưng điều đó là không cần thiết). Không có gì thủ công trong đó do đó nói rằng "phong cách của nó thực sự thay đổi theo chế độ mà các lập trình viên đã xiềng xích nó" là không chính xác.
IA Petr Harasimovic

"Cờ vua là tất cả về cuộc đấu tranh giữa tâm trí con người. Đó là điều làm cho nó trở nên thú vị. Cờ vua máy tính là máy móc, khô khan và nhạt nhẽo, tất nhiên các động tác rất mạnh, nhưng không có phong cách". Có ai đã thực hiện một thử nghiệm phong cách thử nghiệm Turing được tiến hành tốt với một số GM chơi một đối thủ ẩn danh có thể là người hoặc máy tính không?

Nếu bạn tin rằng quan điểm của tôi là MCTS là sự khác biệt quan trọng (giữa Alpha-zero và Stockfish) - bạn đang thiếu quan điểm của tôi. Quan điểm của tôi là con người, không phải thuật toán quyết định phong cách chơi của Alpha-zero, đã quyết định quyết định của Alpha-zero. Quan điểm của tôi là những lựa chọn rất con người này dường như truyền đạt một phong cách chơi tấn công GM và nghiệp dư như quyết định không phải là con người.
user34445


1
@ user34445 Trên thực tế, tôi nghĩ rằng đoạn văn đó không có điểm nào cả, tôi chỉ đang cố gắng hợp lý hóa nó. Con người không quyết định phong cách chơi của AlphaZero, họ quyết định cách học của nó. Họ không chắc chắn áp đặt quan điểm của họ về cách chơi cờ.
IA Petr Harasimovic

5

Đây là một thời gian vô cùng thú vị để được sống.

Các máy tính cờ vua bắt đầu từ những năm 1970 đã được các thuật toán tìm kiếm dựa trên cây minimax sử dụng cách cắt tỉa alpha-beta. Các chương trình này ngày càng mạnh hơn bởi vì những tiến bộ về tốc độ và tính song song của máy tính và vì những cải tiến trong chức năng đánh giá heuristic được sử dụng để cắt tỉa các nhánh và chọn các nút lá. Nhưng mọi người từ lâu đã nhận thấy cách chơi máy tính vật chất và nhàm chán, và nhiều người (bao gồm cả tôi) nghĩ rằng không thể mã hóa trực giác "con người" vào phần mềm.

Nhưng bạn đã thấy những trò chơi này?

AlphaZero đang thể hiện lối chơi cực kỳ đẹp mắt, bao gồm một số ví dụ về sự hy sinh vật chất vì lợi thế vị trí lâu dài. Điều này gợi nhớ đến một số trò chơi đẹp nhất từ ​​các bậc thầy của con người, nhưng với độ chính xác kỹ thuật vô song là tốt. Đây là ví dụ đầu tiên tôi thấy trong đời về một thứ gì đó do máy tính tạo ra và cũng có vẻ đẹp sâu sắc .


Yêu cầu nhân mã:

Tôi đã nghe Garry nói điều này nhiều lần, nhưng điều đó không đúng. Hoặc ít nhất, nó sẽ không còn đúng với AlphaZero trên hiện trường nữa.

Hãy tưởng tượng điều này: có một túi có 10.000 liên tục có liên quan, trong đó 5.000 trong số đó hoàn toàn là chiến thuật (hầu như không liên quan đến nhau) và 5.000 khác chủ yếu là theo vị trí (hầu hết không liên quan). Làm thế nào một con người có thể sàng lọc tất cả các biến thể mà không phạm sai lầm? Nếu bây giờ AlphaZero có thể nhìn vào những động thái rất sáng tạo này, con người có thể đóng góp gì?


Biên giới cuối cùng:

Có một nơi còn lại nơi tính toán vũ phu vẫn sẽ đánh bại các mạng lưới thần kinh sâu sắc: kết thúc. Không có số lượng trực giác sẽ đánh bại một cơ sở bảng. Nhưng các kết thúc yêu cầu một bảng cơ sở (vì một cây tìm kiếm không thể đủ sâu để chỉ tính toán di chuyển đúng) là khá hiếm. Và bạn chỉ có thể cắm một cái bàn vào AlphaZero, nhưng điều đó sẽ phá hủy sự thuần khiết của một công cụ "tự học", phải không?


3

Vì con người không có khả năng tìm kiếm sâu, như các chương trình cờ vua máy tính truyền thống (fritz, stockfish et al), họ tạo ra 'nguyên tắc chiến lược' hoặc quy tắc ngón tay cái (kiểm soát trung tâm, phát triển, an toàn vua) và các khái niệm hoặc thủ thuật được áp dụng trong rất nhiều các tình huống theo những cách khác nhau, chẳng hạn như sự hy sinh, các tân binh được kết nối, cặp giám mục, các kết thúc cụ thể, ví dụ như làm thế nào để dồn nhà vua với một tân binh và một con tốt.

Tôi nghĩ rằng alpha zero đã phát minh lại một cách độc lập nhiều khái niệm như vậy (nhận thức và khái niệm) và cũng đã học được hàng tấn những cái mới - bởi vì kiến ​​thức của nó không bắt buộc phải được xây dựng dựa trên các chức năng đánh giá của con người và tìm kiếm minmax mạnh mẽ luôn cho rằng đối thủ là Thiên tài.

Tất nhiên, các nguyên tắc như vậy tự xung đột trong một số tình huống, đó là lý do tại sao các vở kịch mở đầu và cạm bẫy khác nhau được nghiên cứu cẩn thận - ví dụ: không phát triển nữ hoàng quá sớm.

Mặt khác, con người cũng nhận thấy rằng một khi bạn mất một mảnh (không trao đổi), bạn sẽ làm suy yếu lực lượng của mình để họ cực kỳ cẩn thận để không bị mất một mảnh mà không được bồi thường.

Tôi nghĩ rằng lối chơi của Alphazero đã giải phóng cờ vua máy tính (và cờ vua của con người) khỏi nỗi sợ hãi mù quáng về việc mất vật chất nhỏ và quá phụ thuộc vào việc mở sách và giá trị quân cờ.

Các trò chơi Alphazero cho thấy những thứ như 'nguyên tắc chiến lược' như kiểm soát trung tâm, phát triển, không gian, sáng kiến ​​quan trọng hơn nhiều nếu đối thủ của bạn cẩu thả. Nói cách khác, 'hy sinh' không thực sự là hy sinh mà là đánh đổi một mảnh để đạt được sự chủ động, vị trí, di chuyển có định hướng.

Alphago (không phải số 0) dựa vào đánh giá của con người, nhưng alphazero thiết lập toàn bộ chuỗi đánh giá để 'tìm kiếm hoặc mô phỏng' như một kết thúc duy nhất để kết thúc quá trình và đưa ra cách chơi hoàn toàn mới.

Nếu bạn nghĩ về nó, những bậc thầy vĩ đại trong quá khứ như Morphy, Fischer, Kasparov đã được hoan nghênh vì kiểu chơi trực quan điển hình này trong đó họ không bị ràng buộc bởi đánh giá bằng văn bản bằng cách tận dụng các tình huống đặc biệt hiện ra. Tôi nghĩ các trò chơi của alpha zero có yếu tố 'wow' như vậy.

Tại sao mạng lưới thần kinh. Trong khi các chương trình máy tính sử dụng biểu diễn tượng trưng và tìm kiếm riêng biệt chỉ có thể sử dụng cách suy nghĩ 'một', các mạng thần kinh có thể xử lý các tình huống tương tự với các đánh giá xen kẽ, mâu thuẫn và chuyển sang chế độ xem có giá trị hơn trong các lớp sau.


2

Nhiều người hiểu theo nghĩa các động tác mà nó chơi dường như trùng khớp ít nhiều với cách tiếp cận của con người: chơi vì lợi thế lâu dài, hy sinh vị trí, hoạt động mảnh. Có một sự hội tụ rõ ràng với kiến ​​thức cờ vua của con người và chấp nhận các nguyên tắc chiến lược được tinh chỉnh qua nhiều thế kỷ (ví dụ: nó "phát hiện ra" nhiều lối mở giống nhau). Điều này rất đáng chú ý vì thực tế là AlphaZero đã không được gieo mầm với kiến ​​thức cờ vua do con người tạo ra.

Nhưng sự tương đồng kết thúc ở đây. AlphaZero đưa nó lên một tầm cao mới và làm điều đó tốt hơn, và theo cách mà con người chưa bao giờ quan niệm. AlphaZero sở hữu khả năng "siêu phàm" để trích dẫn bài báo: "AlphaZero đạt được mức độ chơi siêu phàm [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). Ngoài ra, nó không có những điểm yếu cố hữu đối với con người: vấn đề tập trung, sợ hãi, mệt mỏi, cảm giác, trực giác, v.v ... làm hạn chế con người. Và bộ não silicon của nó cho phép kết hợp chiến thuật vượt quá khả năng của con người khi cần thiết.


2
Sau đó là một nghịch lý. Stockfish lợi ích từ kinh nghiệm của con người; Alphazero thì không. Nhưng Alpha zero có vẻ giống con người hơn. Có nghĩa là, có lẽ, điều mà chúng tôi đã không làm, với thế hệ Stackfish, một công việc rất tốt để chắt lọc suy nghĩ của chúng tôi
Philip Roe

1

Tôi muốn nói lời cảm ơn đến tất cả những người đã trả lời câu hỏi này, thường với sự tinh tế và sâu sắc. Sự khác biệt chính trong các câu trả lời, dường như đối với tôi, là trong cách giải thích từ con người.

AlphaZero không chơi cờ người theo nghĩa quá khổ và tính toán sai, nhưng quá trình "suy nghĩ" của nó dường như tương ứng, ở dạng cao, theo cách tôi nghĩ rằng hầu hết những người chơi mạnh mẽ nghĩ. Bạn rút ra, khá nhanh chóng, một danh sách "di chuyển ứng cử viên" mà bạn muốn chơi, và đối với những người chơi mạnh nhất, danh sách này chính xác đến mức đáng kinh ngạc, thậm chí chơi một thứ gì đó giống như một trò chơi dễ nhận biết trong một phút. Thời gian còn lại dành cho việc hỏi, động thái nào trong danh sách đó thực sự hiệu quả? Petrosian nói rằng anh cảm thấy thoải mái nhất khi phong độ cuối cùng anh chơi là lần đầu tiên anh nghĩ đến. Tất cả chúng ta đều biết mức độ thỏa mãn của nó khi di chuyển mà chúng ta muốn chơi nhất hóa ra lại có thể chơi được về mặt chiến thuật. Tôi có thể liên quan đến thuật toán AlphaZero dễ dàng hơn nhiều so với tìm kiếm AlphaBeta,

Điều có vẻ thú vị nhất là làm thế nào máy có thể, bằng cách tự chơi, để nhận ra các ứng cử viên đầy triển vọng. Đó là nơi tiềm năng nằm cho cuộc cách mạng thực sự. Tôi tự hỏi liệu điều này chỉ có thể đối với các lĩnh vực như cờ vua và cờ vây, nơi các mục tiêu có thể được xác định rõ ràng. Nhưng tôi thấy thật ấn tượng khi AlphaZero dường như thể hiện lối chơi có mục đích, nhưng Stockfish không biết chuyện gì đang xảy ra.


0

Cách tôi hiểu các mạng lưới thần kinh, lợi thế thực sự của A0 là đánh giá vượt trội về vị trí bảng. Đánh giá này kết hợp cả kiến ​​thức chiến thuật ngắn hạn (theo nghĩa là đóng vai trò là số nhân của số lượng vị trí được kiểm tra) và đánh giá vượt trội về giá trị chiến lược.


1
Chào mừng bạn đến với Cờ vua SE! Bạn có thể vui lòng cung cấp một tài liệu tham khảo cho các lý do tại sao bạn nghĩ rằng mạng lưới thần kinh hoạt động theo cách đó?
Pablo S. Ocal

0

Một điều tôi cảm thấy toàn bộ cuộc thảo luận đã bỏ lỡ là A0 có thể chơi cờ, shogi và đi, tất cả đều rất tốt và tất cả từ tự luyện tập. Đây là con người nhiều hơn. Hơn nữa, nó đã tiết lộ những ý tưởng mới sâu sắc cho những người chơi hàng đầu (theo tôi hiểu). Các động cơ khác là rất cụ thể nhiệm vụ, A0 có vẻ khác. Tôi muốn thấy nó chơi cờ960.


1
Tôi không thấy cách này trả lời câu hỏi.
SmallChess

-2

Tôi không nghĩ có bất cứ điều gì "con người" về Alpha. Nó chỉ sử dụng phần cứng mạnh hơn nhiều và chơi cờ chất lượng cao hơn. Các bước mở tốt mà nó tìm thấy (ví dụ, đối với vị vua fianchetto với Bg2) hoàn toàn do cuốn sách mở đầu mô phỏng của nó. Các khái niệm khiến tôi ấn tượng và tôi đã hình thành trong 'Bí mật cờ vua': http://davidsmerdon.com/?p=1970 , lần đầu tiên Alpha sử dụng trong số các động cơ hàng đầu, là các chuỗi dài hơn, ví dụ như d4 Chuỗi -e5-f6 đã chiếm toàn bộ trong trò chơi hy sinh Bg6 và các nhà sản xuất lạc hậu trung tâm, như đã thấy trong các trò chơi Quốc phòng Pháp giữa cả hai động cơ. Cả hai khái niệm liên quan đến việc tìm kiếm đến độ sâu lớn, và có lẽ ở đây Alpha đã được giúp đỡ bởi phần cứng to lớn của nó. Mặt khác, tôi không thấy gì về con người. Nhiều trò chơi đã được thừa nhận


5
Hai tuyên bố của bạn là không chính xác: 1) "Nó chỉ sử dụng phần cứng mạnh hơn nhiều" - Vâng, nó đã sử dụng phần cứng mạnh hơn nhiều so với Stockfish nhưng đây không phải là điều làm nên sự khác biệt. Đây là phần mềm rất khác nhau đòi hỏi phần cứng mạnh. 2) "Các động tác mở tốt mà nó tìm thấy hoàn toàn do cuốn sách mở đầu mô phỏng của nó." - Nó không sử dụng bất kỳ cuốn sách mở.
IA Petr Harasimovic

Chính điều này tạo nên sự khác biệt: phần cứng Alpha lớn hơn theo cấp số nhân. Mọi người thử cờ đều biết tăng gấp đôi tốc độ làm tăng sức mạnh cờ khoảng 70 elos hoặc hơn, tùy thuộc vào phần mềm. Sự khác biệt giữa 32 lõi và 4TPU, 1000-2000 lõi, là 6 nhân đôi hoặc hơn. Điều đó sẽ làm cho 420 elos. Vì vậy, trên thực tế, trong khi nó thực hiện 100 elos mạnh hơn trên phần cứng đó, với điều kiện tương đương, Alpha yếu hơn khoảng 300 elos.
Lyudmil Tsvetkov

Nó sử dụng một cuốn sách mở, tất nhiên, bất kể họ yêu cầu gì. Alpha đã được đào tạo về các trò chơi chiến thắng GM hàng đầu. Điều đó rất rõ ràng, nếu người ta thấy lựa chọn mở của Alpha: chính xác là lý thuyết hiện đại mở và khuyến nghị chính xác, trong đó cơ hội chiến thắng là tốt nhất. Bạn không fianchetto với Bg2 như thế.
Lyudmil Tsvetkov

3
@Lyudmil, Google đã đạt được một điều đáng kinh ngạc trong Alpha Zero. Nó tự dạy mình những động tác này bằng cách chơi với chính nó chỉ biết luật chơi! Việc buộc tội nhóm gian lận Alpha Zero cho thấy bạn hoàn toàn không hiểu thành tích hay nhiệm vụ của họ - họ đang đẩy biên giới của AI về phía trước và như một cử chỉ nhỏ trên đường đánh bại tất cả các động cơ cờ vua và tài năng của con người trong một buổi chiều!
thuyền buồm

1
@LyudmilTsvetkov Bạn hoàn toàn không chính xác. Alpha Zero (và đây là điểm chính của nó) được đào tạo trong bất kỳ trò chơi nào của con người. Nó nói với các quy tắc và sau đó phát minh mọi khía cạnh của trò chơi của mình trong bốn giờ chơi bởi chính nó mà không cần bất kỳ dữ liệu bên ngoài mới.
Maverick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.