Tìm hiểu MDPs không gian trạng thái / hành động liên tục và Học tăng cường

Hầu hết các giới thiệu về lĩnh vực MDP và học tập Củng cố chỉ tập trung vào các miền trong đó các biến không gian và hành động là số nguyên (và hữu hạn). Bằng cách này, chúng tôi được giới thiệu nhanh chóng về Lặp lại giá trị, Q-Learning và tương tự.

Tuy nhiên, các ứng dụng thú vị nhất (giả sử, máy bay trực thăng bay ) của RL và MDP liên quan đến không gian trạng thái và không gian hành động liên tục. Tôi muốn đi xa hơn những lời giới thiệu cơ bản và tập trung vào những trường hợp này nhưng tôi không chắc làm thế nào để đến đó.

Những lĩnh vực nào tôi cần biết hoặc nghiên cứu để hiểu sâu về những trường hợp này?

research reinforcement-learning control-problem

— CarrKnight
nguồn

Có một khảo sát nhỏ về các trạng thái, hành động và thời gian liên tục trong học tập củng cố trong đề xuất luận án của tôi .

Về sách, Học tăng cường: Nhà nước-nghệ thuật dường như khá cập nhật từ các trích đoạn tôi đã đọc.

— RCpinto
nguồn