Tổng quan về thuật toán học tăng cường


9

Tôi hiện đang tìm kiếm một Tổng quan về các thuật toán học tăng cường và có thể phân loại chúng. Nhưng bên cạnh Sarsa và Q-Learning + Deep Q-Learning tôi thực sự không thể tìm thấy bất kỳ thuật toán phổ biến nào.

Wikipedia cung cấp cho tôi một cái nhìn tổng quan về các Phương pháp học tăng cường chung khác nhau nhưng không có tài liệu tham khảo nào về các thuật toán khác nhau thực hiện các phương pháp này.

Nhưng có lẽ tôi đang nhầm lẫn các cách tiếp cận và thuật toán chung và về cơ bản không có phân loại thực sự trong lĩnh vực này, giống như trong các lĩnh vực học máy khác. Ai đó có thể cho tôi một lời giới thiệu ngắn hoặc chỉ một tài liệu tham khảo nơi tôi có thể bắt đầu đọc các cách tiếp cận khác nhau, sự khác biệt giữa chúng và các thuật toán ví dụ thực hiện phương pháp này?


Câu trả lời:


14

Có một bài khảo sát tốt ở đây .

Như một bản tóm tắt nhanh chóng, trong bổ sung cho phương pháp Q-học, cũng có một lớp các phương pháp dựa trên chính sách, nơi thay vì học hàm Q, bạn trực tiếp tìm hiểu những chính sách tốt nhất để sử dụng.π

Các phương thức này bao gồm thuật toán REINFORCE phổ biến, là thuật toán độ dốc chính sách. TRPO và GAE là các thuật toán độ dốc chính sách tương tự.

Có rất nhiều biến thể khác về độ dốc chính sách và nó có thể được kết hợp với Q-learning trong khuôn khổ phê bình diễn viên. Thuật toán A3C - nhà phê bình diễn viên lợi thế không đồng bộ - là một trong những thuật toán phê bình diễn viên như vậy, và là cơ sở rất mạnh trong học tập củng cố.

π

Ngoài Q-learning và độ dốc chính sách, cả hai đều được áp dụng trong cài đặt miễn phí mô hình (không phải thuật toán duy trì mô hình của thế giới), còn có các phương pháp dựa trên mô hình ước tính trạng thái của thế giới. Những mô hình này có giá trị bởi vì chúng có thể hiệu quả hơn rất nhiều mẫu.

Các thuật toán dựa trên mô hình không độc quyền với độ dốc chính sách hoặc Q-learning. Một cách tiếp cận phổ biến là thực hiện ước lượng trạng thái / tìm hiểu mô hình động lực học, và sau đó huấn luyện một chính sách trên trạng thái ước tính.

Vì vậy, để phân loại, một sự cố sẽ là

  • Học hàm Q hoặc V
  • Phương pháp dựa trên chính sách
  • Mô hình dựa trên

Các phương thức dựa trên chính sách có thể được chia nhỏ thành

  • Độ dốc chính sách
  • Diễn viên phê bình
  • Tìm kiếm chính sách
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.