Tôi đang xem xét lập trình một dòng theo robot sử dụng thuật toán học tăng cường. Câu hỏi tôi đang suy nghĩ là làm thế nào tôi có thể có được thuật toán để học điều hướng qua bất kỳ con đường tùy ý nào?
Đã theo cuốn sách Sutton & Barto để học tăng cường, tôi đã giải quyết một vấn đề tập thể dục liên quan đến đường đua trong đó các nhân viên xe hơi học cách không đi ra khỏi đường đua và điều chỉnh tốc độ của nó. Tuy nhiên, vấn đề tập thể dục đó đã khiến tác nhân học cách điều hướng theo dõi nó được đào tạo.
Có phải trong phạm vi của việc học tăng cường để có được một robot để điều hướng các con đường tùy ý? Là đại lý hoàn toàn phải có một bản đồ của mạch đua hoặc đường dẫn? Những thông số nào tôi có thể có thể sử dụng cho không gian trạng thái của tôi?