Câu trả lời:
Để câu trả lời tốt ở đây, tôi sẽ thêm
Tổng quan ngắn gọn về RL : Hầu hết các khái niệm cần thiết ở một nơi.
Một tổng quan ngắn gọn , trong định dạng trình bày.
Chuyến tham quan RL của Ben Recht là khá toàn diện và dễ tiếp cận.
Các phương trình Bellman : trung tâm của toàn bộ lý thuyết RL.
Độ dốc chính sách được giải thích bởi Andrej Karpathy (được đề cập trong các câu trả lời khác là "pong từ pixel", đây là liên kết).
Chúng hầu như không làm trầy xước bề mặt của RL, nhưng chúng sẽ giúp bạn bắt đầu.
Có một danh sách phát Youtube (trong kênh DeepMind ) có tiêu đề là Giới thiệu về học tập củng cố , đây là một khóa học (gồm 10 bài học) về học tập củng cố của David Silver .
Một người đã theo dõi và kết thúc khóa học đã viết (như một bình luận trên Youtube):
Khóa học tuyệt vời Nhịp độ tốt, các ví dụ đủ để cung cấp một trực giác tốt và được dạy bởi một người dẫn đầu lĩnh vực áp dụng RL vào các trò chơi.
Trước đó hãy tự hỏi nếu bạn thực sự muốn tìm hiểu về "học tăng cường." Mặc dù có rất nhiều sự cường điệu về học tập củng cố, nhưng khả năng ứng dụng trong học tập củng cố trong thế giới thực gần như không tồn tại. Hầu hết các khóa học trực tuyến dạy cho bạn rất ít về học máy, vì vậy tốt hơn hết là bạn nên tìm hiểu kỹ về nó, thay vì tiến tới học tăng cường. Học tăng cường học tập có phần khác với học về các kỹ thuật học tập không giám sát / giám sát.
Phải nói rằng, cách nhanh nhất để nắm bắt tốt việc học tăng cường là như sau:
Đọc bài đăng trên blog của Andrej Karpathy "Pông từ Pixels."
Xem các bài giảng Deep RL Bootcamp .
Để hiểu toán học đằng sau những kỹ thuật này, hãy tham khảo Học tập củng cố của Sutton và Barto : Giới thiệu .
Đọc các giấy tờ liên quan (chơi trò chơi, vv).
PS: Hãy chắc chắn rằng bạn kỹ lưỡng với các kiến thức cơ bản về mạng thần kinh, vì hầu hết các bài báo hiện tại trong RL đều liên quan đến việc sử dụng DNN theo một số hoặc theo cách khác là xấp xỉ.
Gần đây tôi đã thấy một khóa học của Microsoft trên edx. Nó được gọi là 'Giải thích học tập củng cố'.
Đây là liên kết: https://www.edx.org/c thuyết / reforfor thi-learning-express-0 Điều này không hoàn toàn toàn diện nhưng ít nhất mang lại một điểm khởi đầu tốt.
Tôi muốn nói rằng bài viết này là phải đọc:
https://rubenfiszel.github.io/posts/rl4j/2016-08-24-Rerforfor-Learning-and-DQN.html
real-world applicability of reinforcement learning is almost non-existent
AlphaGo được đào tạo với học tập củng cố.