Không có gì trong các thành phần họ sử dụng là tiểu thuyết. Tất cả các phương pháp đã được khám phá. Kiểm tra tài liệu tham khảo của họ, bạn sẽ nhận thấy nhiều nhà nghiên cứu làm công việc tương tự. Sự mới lạ là đường ống mà họ tuân theo và sự kết hợp của các phương pháp Học tập Củng cố dựa trên mô hình và không có mô hình. Tôi sẽ cố gắng cung cấp cho bạn một quan điểm khác biệt về kỹ thuật về những gì họ đã chụp.
Các cách tiếp cận không có mô hình thường cố gắng gần đúng các chức năng như các hàm Giá trị (biểu thị mức độ tốt của nó trong một trạng thái cụ thể - cấu hình bảng - về phần thưởng trong tương lai) hoặc các hàm chính sách được tham số hóa (xác suất chọn một hành động được đưa ra một trạng thái. , mô hình của bạn đạt được một số ' trực giác ' trong đó các bước di chuyển tương đối tốt - tương tự như người chơi cờ vây trực quan chuyên nghiệp, khi họ tuyên bố rằng họ thực hiện một động tác vì nó 'cảm thấy' tốt. Điều này rất quan trọng ở giai đoạn đầu của trò chơi khi lập kế hoạch là không hiệu quả để sử dụng.
Các cách tiếp cận dựa trên mô hình cố gắng mô phỏng mọi quỹ đạo có thể có của trò chơi dưới dạng cây quyết định. Do đó, chúng rất hữu ích cho việc lập kế hoạch (trước khi bạn thực sự di chuyển trong trò chơi, bạn kiểm tra và đánh giá tất cả các tình huống có thể xảy ra và sau đó bạn quyết định sẽ di chuyển từ vị trí hiện tại của mình). MCTS là một thuật toán như vậy, tạo ra một cây quyết định trong các khóa học có thể có trong tương lai của trò chơi từ vị trí bảng hiện tại và đánh giá các heuristic này theo một số tiêu chí. Các thuật toán tốt nhất trong Go cho đến nay được dựa trên thuật toán này (và được coi là thuật toán RL).
Vì vậy, về tính mới, với một vài từ: kết hợp giữa lập kế hoạch và trực giác, có nghĩa là kết hợp thuật toán MCTS với các hàm xấp xỉ để đánh giá các quỹ đạo trò chơi mô phỏng. Trong trường hợp này, họ đã sử dụng mạng lưới thần kinh tích chập rất sâu cho phần 'trực giác'. Ngoài ra, toàn bộ mô hình này được điều khiển theo dữ liệu khi lần đầu tiên được đào tạo về các động tác chuyên môn của con người (điều này có thể hữu ích trong các ứng dụng trong nhiều lĩnh vực khác ngoài chơi game). Nếu bạn kiểm tra từng thành phần, không có gì mới lạ ... nhưng toàn bộ quá trình để kết hợp hiệu quả tất cả các yếu tố này và đạt được Mastery trong miền phức tạp đó là một điều gì đó mới lạ. Hy vọng nó giúp!