Thuật toán học tập củng cố tiểu thuyết của người Viking trong AlphaGo Zero là gì?


10

Vì một số lý do, AlphaGo Zero không được công khai nhiều như AlphaGo ban đầu, mặc dù kết quả đáng kinh ngạc của nó. Bắt đầu từ đầu, nó đã đánh bại AlphaGo Master và đã vượt qua nhiều điểm chuẩn khác. Thậm chí đáng kinh ngạc hơn, nó đã thực hiện điều này trong 40 ngày. Google gọi nó là "người chơi cờ vây giỏi nhất thế giới" .

DeepMind tuyên bố đây là một "hình thức học tập củng cố mới lạ" - kỹ thuật này có thực sự mới lạ không? Hoặc đã có những lần khác khi kỹ thuật này được sử dụng - và nếu vậy, kết quả của họ là gì? Tôi nghĩ rằng các yêu cầu tôi đang nói đến là 1) không có sự can thiệp của con người và 2) không có trò chơi lịch sử, nhưng đây là những điều linh hoạt.

Đây dường như là một câu hỏi tương tự, nhưng tất cả các câu trả lời dường như bắt đầu từ giả định rằng AlphaGo Zero là câu hỏi đầu tiên thuộc loại này.


Học tăng cường không phải là mới. Những kỹ thuật nào Google tuyên bố rằng họ là người đầu tiên?
HelloWorld

Có một trích dẫn về nó trên trang web được liên kết và trong bài viết họ sử dụng cụm từ "Mạng lưới thần kinh trong AlphaGo Zero được đào tạo từ các trò chơi tự chơi bằng thuật toán học tăng cường mới lạ."
Dubukay

1
Tự chơi chắc chắn không mới. Nó đã tồn tại trước Google. Có những chi tiết trong thuật toán của họ khiến chúng trở nên "mới lạ". Có lẽ người khác có thể trả lời.
HelloWorld

2
Tôi hiểu điều đó- Tôi đoán tôi đang cố gắng hiểu điều gì đã khiến cách tiếp cận của họ trở nên cực kỳ tốt, và liệu đó có phải là thứ chúng ta nên thấy ở những khu vực khác hay không. Đó là một triết lý mới hay chỉ là mã thực sự tốt?
Dubukay

1
Tôi đã tìm thấy một bản sao của bài báo ở đây: Nature.com/articles/ ((bao gồm mã thông báo truy cập chia sẻ, từ blog liên kết nó, vì vậy đây là chia sẻ công khai hợp pháp AFAICS). Ngay cả sau khi đọc mô tả mặc dù rất khó để chọn ra tính mới lạ thực tế - tất cả các ý tưởng riêng lẻ dường như là các kỹ thuật chơi RL / chơi trò chơi đã tồn tại, nó có thể chỉ là sự kết hợp cụ thể của chúng là tiểu thuyết
Neil Slater

Câu trả lời:


6

Các AlphaGo Zero, bài viết từ thiên nhiên , "Mastering the Game of Go mà không cần kiến thức của con người", tuyên bố Bốn sự khác biệt lớn so với phiên bản trước đó:

  1. Chỉ tự học (không được đào tạo về các trò chơi của con người)
  2. Chỉ sử dụng bảng và đá làm đầu vào (không có tính năng viết tay).
  3. Sử dụng một mạng thần kinh duy nhất cho các chính sách và giá trị
  4. Một thuật toán tìm kiếm cây mới sử dụng mạng chính sách / giá trị kết hợp này để hướng dẫn nơi tìm kiếm các chuyển động tốt.

Điểm (1) và (2) không phải là mới trong học tập Củng cố, nhưng cải thiện phần mềm AlphaGo trước đây như đã nêu trong các nhận xét cho câu hỏi của bạn. Điều đó chỉ có nghĩa là bây giờ họ đang sử dụng Học tăng cường thuần túy bắt đầu từ các trọng số khởi tạo ngẫu nhiên. Điều này được kích hoạt bởi các thuật toán học tập tốt hơn, nhanh hơn.

Yêu cầu của họ ở đây là "Đóng góp chính của chúng tôi là chứng minh rằng hiệu suất siêu phàm có thể đạt được mà không cần kiến ​​thức về miền người". (trang 22).

Điểm (3) và (4) là tiểu thuyết theo nghĩa là thuật toán của họ đơn giản và tổng quát hơn so với cách tiếp cận trước đây của họ. Họ cũng đề cập rằng đó là một cải tiến trong công việc trước đây của Guo et al.

Thống nhất mạng chính sách / giá trị (3) cho phép họ thực hiện một biến thể tìm kiếm cây Monte-Carlo hiệu quả hơn để tìm kiếm các chuyển động tốt và đồng thời sử dụng cây tìm kiếm để đào tạo mạng nhanh hơn (4). Điều này rất mạnh mẽ.

Hơn nữa, họ mô tả một số chi tiết triển khai thú vị như tạo khối và tái sử dụng cấu trúc dữ liệu để tối ưu hóa việc tìm kiếm các bước đi mới.

Hiệu quả là nó cần ít năng lượng tính toán hơn, chạy trên 4 TPU thay vì 176 GPU và 48 TPU cho các phiên bản trước của phần mềm.

Điều này chắc chắn làm cho nó "mới lạ" trong bối cảnh của phần mềm Go. Tôi tin rằng (3) và (4) cũng là "tiểu thuyết" trong bối cảnh rộng hơn và sẽ được áp dụng trong các lĩnh vực Học tập Củng cố khác, ví dụ như robot.


Tôi nghĩ (4) được ám chỉ trong các bài giảng của David Silver - bài giảng 10 về các trò chơi cổ điển - trong rất nhiều trường hợp hiện tại, MCTS được hướng dẫn bởi ML đã được đào tạo. Trong trường hợp của AlphaGo Zero, điều này được lật lại và kết quả của MCTS được sử dụng để đặt mục tiêu học tập cho ML. Tuy nhiên, điều khiến tôi tự hỏi liệu nó có thực sự là "tiểu thuyết" hay không là khả năng thực hiện điều đó được đề cập trong bài giảng. . .
Neil Slater
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.