Ở đây bạn có một số sách giáo khoa / tài liệu tham khảo tốt:
Cổ điển
Sutton RS, Barto AG. Học tăng cường: Giới thiệu. Cambridge, Mass: Một cuốn sách của Warren; 1998. 322 tr.
Bản nháp cho phiên bản thứ hai có sẵn miễn phí: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
Russell / Norvig Chương 21:
Russell SJ, Norvig P, Davis E. Trí tuệ nhân tạo: một cách tiếp cận hiện đại. Thượng Yên River, NJ: Hội trường Prentice; 2010.
Thêm kỹ thuật
Szepesvári C. Thuật toán học tăng cường. Bài giảng tổng hợp về trí tuệ nhân tạo và học máy. 2010; 4 (1): 1 Từ 103. http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP. Lập trình động và điều khiển tối ưu. Tái bản lần thứ 4 Belmont, Mass.: Athena Khoa học; Năm 2007 1270 tr.
Chương 6, tập 2 có sẵn miễn phí: http://web.mit.edu/dimitrib/www/dpch CHƯƠNG.pdf
Đối với những phát triển gần đây
Wiering M, van Otterlo M, biên tập viên. Học tăng cường. Berlin, Heidelberg: Mùa xuân Berlin Heidelberg; 2012 Có sẵn từ: http://link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ, Amato C, Chowdhary G, How JP, Reynold HJD, Thornton JR, et al. Ra quyết định theo sự không chắc chắn: Lý thuyết và ứng dụng. 1 phiên bản. Cambridge, Massachusetts: Báo chí MIT; 2015. 352 tr.
Học tăng cường đa tác nhân
Buşoniu L, Babuška R, Schutter BD. Học tập tăng cường đa tác nhân: Tổng quan. Trong: Srinivasan D, Jain LC, biên tập viên. Những đổi mới trong hệ thống và ứng dụng đa tác nhân - 1. Mùa xuân Berlin Heidelberg; 2010 trang. 183 Gian21. Có sẵn từ: http://link.springer.com/ch CHƯƠNG / 10.1007/978-3-642-14435-6_7
Schwartz HM. Học máy đa tác nhân: một cách tiếp cận củng cố. Hoboken, New Jersey: Wiley; 2014.
Video / Khóa học
Tôi cũng sẽ đề xuất khóa học David Silver trong YouTube: https://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa