Hầu hết các giới thiệu về lĩnh vực MDP và học tập Củng cố chỉ tập trung vào các miền trong đó các biến không gian và hành động là số nguyên (và hữu hạn). Bằng cách này, chúng tôi được giới thiệu nhanh chóng về Lặp lại giá trị, Q-Learning và tương tự.
Tuy nhiên, các ứng dụng thú vị nhất (giả sử, máy bay trực thăng bay ) của RL và MDP liên quan đến không gian trạng thái và không gian hành động liên tục. Tôi muốn đi xa hơn những lời giới thiệu cơ bản và tập trung vào những trường hợp này nhưng tôi không chắc làm thế nào để đến đó.
Những lĩnh vực nào tôi cần biết hoặc nghiên cứu để hiểu sâu về những trường hợp này?