Tài nguyên tốt để làm quen với việc học tăng cường là gì?


8

Tôi quen thuộc với việc học có giám sát và không giám sát. Tôi đã thực hiện khóa học SaaS do Andrew Ng thực hiện trên Coursera.org.

Tôi đang tìm kiếm một cái gì đó tương tự cho việc học tăng cường.

Bạn có thể giới thiệu một cái gì đó?

Câu trả lời:


5

Để câu trả lời tốt ở đây, tôi sẽ thêm

Chúng hầu như không làm trầy xước bề mặt của RL, nhưng chúng sẽ giúp bạn bắt đầu.


3

Có một danh sách phát Youtube (trong kênh DeepMind ) có tiêu đề là Giới thiệu về học tập củng cố , đây là một khóa học (gồm 10 bài học) về học tập củng cố của David Silver .

Một người đã theo dõi và kết thúc khóa học đã viết (như một bình luận trên Youtube):

Khóa học tuyệt vời Nhịp độ tốt, các ví dụ đủ để cung cấp một trực giác tốt và được dạy bởi một người dẫn đầu lĩnh vực áp dụng RL vào các trò chơi.


3

Trước đó hãy tự hỏi nếu bạn thực sự muốn tìm hiểu về "học tăng cường." Mặc dù có rất nhiều sự cường điệu về học tập củng cố, nhưng khả năng ứng dụng trong học tập củng cố trong thế giới thực gần như không tồn tại. Hầu hết các khóa học trực tuyến dạy cho bạn rất ít về học máy, vì vậy tốt hơn hết là bạn nên tìm hiểu kỹ về nó, thay vì tiến tới học tăng cường. Học tăng cường học tập có phần khác với học về các kỹ thuật học tập không giám sát / giám sát.

Phải nói rằng, cách nhanh nhất để nắm bắt tốt việc học tăng cường là như sau:

  1. Đọc bài đăng trên blog của Andrej Karpathy "Pông từ Pixels."

  2. Xem các bài giảng Deep RL Bootcamp .

  3. Để hiểu toán học đằng sau những kỹ thuật này, hãy tham khảo Học tập củng cố của Sutton và Barto : Giới thiệu .

  4. Đọc các giấy tờ liên quan (chơi trò chơi, vv).

PS: Hãy chắc chắn rằng bạn kỹ lưỡng với các kiến ​​thức cơ bản về mạng thần kinh, vì hầu hết các bài báo hiện tại trong RL đều liên quan đến việc sử dụng DNN theo một số hoặc theo cách khác là xấp xỉ.


real-world applicability of reinforcement learning is almost non-existent AlphaGo được đào tạo với học tập củng cố.
cantordust

Cảm ơn, điều tôi thích về học tập củng cố là nó có thể tự cải thiện chỉ bằng cách thực hiện nhiệm vụ nhiều lần. Không cần giám sát. Chỉ có mô hình phải mô tả chính xác vấn đề.
Martin S


@thecomplexitytheorist Vâng, tôi biết bài đăng đó, và vâng, có những khó khăn liên quan đến RL (giống như bất kỳ phương pháp ML nào khác). Tuy nhiên, những khó khăn này không ngụ ý rằng khả năng ứng dụng của nó là con số không. Một ví dụ thành công khác (cũng được đề cập trong bài đăng) là cải thiện 40% hiệu quả làm mát của các trung tâm dữ liệu của Google - hầu như không đáng kể.
cantordust

1
@cantordust, bạn nên đọc bài đăng đó hoàn toàn, không có học tập "tăng cường học tập" liên quan đến "cải thiện hiệu quả làm mát", họ đã đề cập rõ ràng rằng họ đã đưa ra dự đoán dựa trên dữ liệu tiêu thụ năng lượng trong quá khứ.
riemann77


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.