Các AlphaGo Zero, bài viết từ thiên nhiên , "Mastering the Game of Go mà không cần kiến thức của con người", tuyên bố Bốn sự khác biệt lớn so với phiên bản trước đó:
- Chỉ tự học (không được đào tạo về các trò chơi của con người)
- Chỉ sử dụng bảng và đá làm đầu vào (không có tính năng viết tay).
- Sử dụng một mạng thần kinh duy nhất cho các chính sách và giá trị
- Một thuật toán tìm kiếm cây mới sử dụng mạng chính sách / giá trị kết hợp này để hướng dẫn nơi tìm kiếm các chuyển động tốt.
Điểm (1) và (2) không phải là mới trong học tập Củng cố, nhưng cải thiện phần mềm AlphaGo trước đây như đã nêu trong các nhận xét cho câu hỏi của bạn. Điều đó chỉ có nghĩa là bây giờ họ đang sử dụng Học tăng cường thuần túy bắt đầu từ các trọng số khởi tạo ngẫu nhiên. Điều này được kích hoạt bởi các thuật toán học tập tốt hơn, nhanh hơn.
Yêu cầu của họ ở đây là "Đóng góp chính của chúng tôi là chứng minh rằng hiệu suất siêu phàm có thể đạt được mà không cần kiến thức về miền người". (trang 22).
Điểm (3) và (4) là tiểu thuyết theo nghĩa là thuật toán của họ đơn giản và tổng quát hơn so với cách tiếp cận trước đây của họ. Họ cũng đề cập rằng đó là một cải tiến trong công việc trước đây của Guo et al.
Thống nhất mạng chính sách / giá trị (3) cho phép họ thực hiện một biến thể tìm kiếm cây Monte-Carlo hiệu quả hơn để tìm kiếm các chuyển động tốt và đồng thời sử dụng cây tìm kiếm để đào tạo mạng nhanh hơn (4). Điều này rất mạnh mẽ.
Hơn nữa, họ mô tả một số chi tiết triển khai thú vị như tạo khối và tái sử dụng cấu trúc dữ liệu để tối ưu hóa việc tìm kiếm các bước đi mới.
Hiệu quả là nó cần ít năng lượng tính toán hơn, chạy trên 4 TPU thay vì 176 GPU và 48 TPU cho các phiên bản trước của phần mềm.
Điều này chắc chắn làm cho nó "mới lạ" trong bối cảnh của phần mềm Go. Tôi tin rằng (3) và (4) cũng là "tiểu thuyết" trong bối cảnh rộng hơn và sẽ được áp dụng trong các lĩnh vực Học tập Củng cố khác, ví dụ như robot.