Sách giáo khoa về học tập củng cố

12

Tôi đang tìm kiếm một cuốn sách giáo khoa / bài giảng trong học tập củng cố. Tôi thích "Giới thiệu về học thống kê" , nhưng tiếc là họ không đề cập đến chủ đề này. Tôi biết rằng một cuốn sách của Sutton và Barto là một tài liệu tham khảo tiêu chuẩn, và có lẽ NDP cũng tốt nhưng chúng có niên đại 1997-98, và tôi đã hy vọng tìm thấy một giải trình hiện đại hơn vì lĩnh vực này có thể có một số phát triển gần đây thời gian.

machine-learning references

— Ulysses
nguồn

15

Tôi nghĩ Sutton và Barto vẫn là tiêu chuẩn. Có rất nhiều sàn trượt và ghi chú từ các lớp AI trực tuyến, nhưng chúng thường không đi sâu vào chi tiết.

Sutton và Barto hơi già, nhưng họ đang chuẩn bị một phiên bản thứ 2 của sách giáo khoa. Một dự thảo, ngày tháng 1 năm 2018, có sẵn ở đây ; nó được liên kết từ trang web của Sutton , cũng có toàn văn của phiên bản đầu tiên.

Tôi sẽ xem xét điều này trước khi giải quyết quyết định của Kochenderfer và cộng sự dưới sự không chắc chắn . Cuốn sách đó có một số ứng dụng thú vị (chủ yếu là trong ngành hàng không) nhưng nó di chuyển nhanh và bị trả lại rất nhiều. Các thuật toán của Szepesvári cho việc học tăng cường cũng rất tốt, nhưng không có gì khó khăn - phải mất khoảng hai mươi trang để đến , so với bảy trang và 150 trang trong Sutton và Barto mới hơn. $\textrm{TD(}\lambda\textrm{)}$

Ngoài ra, bạn có thể thử đi sâu vào một số bài viết - các công cụ học tập củng cố có xu hướng khá dễ tiếp cận.

— Matt Krause
nguồn

Cảm ơn, tôi đã xem phiên bản mới, nhưng tôi sẽ không nói rằng nó được cập nhật nhiều. Tôi vẫn quan tâm đến việc tiếp xúc cập nhật hơn.

— Ulysses

Vâng, nó chắc chắn không phải là một cuộc đại tu hoàn chỉnh, nhưng không có gì khác thực sự xuất hiện ngoài một số tập "Ghi chú bài giảng" của Spring, mà về cơ bản chỉ là các bộ sưu tập giấy tờ. Nếu bạn tìm thấy một cái gì đó khác, xin vui lòng gửi một bản cập nhật; Tôi muốn kiểm tra nó.

— Matt Krause

Tôi hiểu rồi, chắc chắn tôi sẽ làm

— Ulysses

1

@CharlieParker, tôi không chắc. Dự thảo gần đây nhất (ngày 19 tháng 6 năm 2017) có vẻ khá hoàn chỉnh và đề cập đến MIT Press, nhưng trang web MIT Press dường như vẫn đang bán phiên bản đầu tiên. Đối với những gì nó có giá trị, bản dự thảo được lấy trực tiếp từ trang web công cộng của tác giả, vì vậy không cần phải lo lắng về việc sử dụng phiên bản "bị rò rỉ" hay bất cứ điều gì tương tự.

— Matt Krause

1

@Thomas, tôi đã cập nhật liên kết với một bản nháp mới hơn.

— Matt Krause

6

Bạn có thể muốn kiểm tra Thuật toán học tăng cường của Csaba Szepesvári, được xuất bản năm 2010. PDF có thể tải xuống từ trang web. Theo tôi, nó có một chút kỹ thuật hơn Sutton và Barto nhưng bao gồm ít tài liệu hơn.

— wij
nguồn

6

Ở đây bạn có một số sách giáo khoa / tài liệu tham khảo tốt:

Cổ điển

Sutton RS, Barto AG. Học tăng cường: Giới thiệu. Cambridge, Mass: Một cuốn sách của Warren; 1998. 322 tr.

Bản nháp cho phiên bản thứ hai có sẵn miễn phí: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

Russell / Norvig Chương 21:

Russell SJ, Norvig P, Davis E. Trí tuệ nhân tạo: một cách tiếp cận hiện đại. Thượng Yên River, NJ: Hội trường Prentice; 2010.

Thêm kỹ thuật

Szepesvári C. Thuật toán học tăng cường. Bài giảng tổng hợp về trí tuệ nhân tạo và học máy. 2010; 4 (1): 1 Từ 103. http://www.ualberta.ca/~szepesva/RLBook.html

Bertsekas DP. Lập trình động và điều khiển tối ưu. Tái bản lần thứ 4 Belmont, Mass.: Athena Khoa học; Năm 2007 1270 tr. Chương 6, tập 2 có sẵn miễn phí: http://web.mit.edu/dimitrib/www/dpch CHƯƠNG.pdf

Đối với những phát triển gần đây

Wiering M, van Otterlo M, biên tập viên. Học tăng cường. Berlin, Heidelberg: Mùa xuân Berlin Heidelberg; 2012 Có sẵn từ: http://link.springer.com/10.1007/978-3-642-27645-3

Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynold HJD, Thornton JR, et al. Ra quyết định theo sự không chắc chắn: Lý thuyết và ứng dụng. 1 phiên bản. Cambridge, Massachusetts: Báo chí MIT; 2015. 352 tr.

Học tăng cường đa tác nhân

Buşoniu L, Babuška R, Schutter BD. Học tập tăng cường đa tác nhân: Tổng quan. Trong: Srinivasan D, Jain LC, biên tập viên. Những đổi mới trong hệ thống và ứng dụng đa tác nhân - 1. Mùa xuân Berlin Heidelberg; 2010 trang. 183 Gian21. Có sẵn từ: http://link.springer.com/ch CHƯƠNG / 10.1007/978-3-642-14435-6_7

Schwartz HM. Học máy đa tác nhân: một cách tiếp cận củng cố. Hoboken, New Jersey: Wiley; 2014.

Video / Khóa học

Tôi cũng sẽ đề xuất khóa học David Silver trong YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa

— Juan Leni
nguồn

3

Bài giảng yêu thích của tôi ghi chú về học tập củng cố là những bài của Andrew Ng trong khóa học của Stanford về ML CS229:

Ghi chú học tập lại Stanford CS229

Bạn cũng có thể tải xuống các video bài giảng trên iTunes. Hoặc trên youtube, họ bắt đầu trong liên kết sau:

Bài giảng 16 CS229

— Charlie Parker
nguồn