Tính mới trong AlphaGo, hệ thống chơi Go của Google Deepmind là gì?


7

Gần đây, các nhà nghiên cứu tại Google DeepMind đã xuất bản một bài báo , trong đó họ mô tả một hệ thống chơi cờ vây đánh bại các chương trình máy tính tốt nhất hiện tại và là nhà vô địch châu Âu của loài người.

Tôi đã xem nhanh bài báo đó và dường như nó đang sử dụng nhiều ý tưởng thú vị từ các bài báo trước. Họ đã làm gì khác nhau cho phép họ đạt được sự cải thiện ngoạn mục này?


1
Các chương trình chơi trò chơi đã âm thầm tiến vào lãnh thổ mới với các kỹ thuật học máy trong một vài năm. Nhóm Google đã đẩy mạnh hơn nữa, nhưng sự cải tiến không phải là IMO triệt để như nó có vẻ (nhiều người sẽ so sánh nó với "kiến thức phổ biến" từ 10 năm trước rằng Go quá khó đối với máy tính). Ví dụ: một số chương trình chơi Go đã đánh bại trình phát của Google trong thử nghiệm. Ngoài ra, hãy xem tiến trình trên trang wikipedia: en.wikipedia.org/wiki/Computer_Go#2000s . . .
Neil Slater

Câu trả lời:


6

Các chương trình hiện có trước AlphaGo dựa trên:

1) Mạng thần kinh chuyển đổi (CNN), được đào tạo trên cơ sở dữ liệu của các trò chơi hiện có.

HOẶC LÀ

2) Tìm kiếm cây Monte Carlo (MCTS)


AlphaGo dựa trên sự kết hợp của:

A) học tăng cường: đào tạo các mạng bằng cách để các phiên bản của CNN (xem ở trên) chơi với nhau.

B) MCTS sử dụng các bước di chuyển được tạo bởi bước A)

Trên hết, hiệu suất còn được cải thiện hơn nữa bằng cách sử dụng điện toán phân tán với số lượng lớn CPU và GPU.

Vì vậy, sự mới lạ là sự kết hợp của các kỹ thuật trên A) và B).


Tôi không thực sự biết về các chương trình CNN đã tồn tại trước AlphaGo. Bạn có ví dụ không? CNN như bạn mô tả trong (A) chỉ đơn giản là sự thay thế cho các mô hình học máy truyền thống để làm điều tương tự. (B) cũng được thực hiện chính xác như bạn mô tả trong các công cụ trước đây, vì vậy cả hai đều không phải là mới lạ. Tính mới này chỉ đơn giản là áp dụng CNN thay cho các mô hình học máy cũ trong khuôn khổ Tìm kiếm Cây Monte Carlo hiện có.
Imran

@Neil Slater +1. Tôi chỉnh sửa câu trả lời của mình để nhấn mạnh hơn sự kết hợp của cả hai kỹ thuật. Cảm ơn.
Rolf Schorpion

1

Không có gì trong các thành phần họ sử dụng là tiểu thuyết. Tất cả các phương pháp đã được khám phá. Kiểm tra tài liệu tham khảo của họ, bạn sẽ nhận thấy nhiều nhà nghiên cứu làm công việc tương tự. Sự mới lạ là đường ống mà họ tuân theo và sự kết hợp của các phương pháp Học tập Củng cố dựa trên mô hình và không có mô hình. Tôi sẽ cố gắng cung cấp cho bạn một quan điểm khác biệt về kỹ thuật về những gì họ đã chụp.

Các cách tiếp cận không có mô hình thường cố gắng gần đúng các chức năng như các hàm Giá trị (biểu thị mức độ tốt của nó trong một trạng thái cụ thể - cấu hình bảng - về phần thưởng trong tương lai) hoặc các hàm chính sách được tham số hóa (xác suất chọn một hành động được đưa ra một trạng thái. , mô hình của bạn đạt được một số ' trực giác ' trong đó các bước di chuyển tương đối tốt - tương tự như người chơi cờ vây trực quan chuyên nghiệp, khi họ tuyên bố rằng họ thực hiện một động tác vì nó 'cảm thấy' tốt. Điều này rất quan trọng ở giai đoạn đầu của trò chơi khi lập kế hoạch là không hiệu quả để sử dụng.

Các cách tiếp cận dựa trên mô hình cố gắng mô phỏng mọi quỹ đạo có thể có của trò chơi dưới dạng cây quyết định. Do đó, chúng rất hữu ích cho việc lập kế hoạch (trước khi bạn thực sự di chuyển trong trò chơi, bạn kiểm tra và đánh giá tất cả các tình huống có thể xảy ra và sau đó bạn quyết định sẽ di chuyển từ vị trí hiện tại của mình). MCTS là một thuật toán như vậy, tạo ra một cây quyết định trong các khóa học có thể có trong tương lai của trò chơi từ vị trí bảng hiện tại và đánh giá các heuristic này theo một số tiêu chí. Các thuật toán tốt nhất trong Go cho đến nay được dựa trên thuật toán này (và được coi là thuật toán RL).

Vì vậy, về tính mới, với một vài từ: kết hợp giữa lập kế hoạch và trực giác, có nghĩa là kết hợp thuật toán MCTS với các hàm xấp xỉ để đánh giá các quỹ đạo trò chơi mô phỏng. Trong trường hợp này, họ đã sử dụng mạng lưới thần kinh tích chập rất sâu cho phần 'trực giác'. Ngoài ra, toàn bộ mô hình này được điều khiển theo dữ liệu khi lần đầu tiên được đào tạo về các động tác chuyên môn của con người (điều này có thể hữu ích trong các ứng dụng trong nhiều lĩnh vực khác ngoài chơi game). Nếu bạn kiểm tra từng thành phần, không có gì mới lạ ... nhưng toàn bộ quá trình để kết hợp hiệu quả tất cả các yếu tố này và đạt được Mastery trong miền phức tạp đó là một điều gì đó mới lạ. Hy vọng nó giúp!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.