Tôi đang cố gắng tìm hiểu quá trình học tập củng cố và các quy trình quyết định markov (MDP) trong trường hợp mạng lưới thần kinh đang được sử dụng làm công cụ xấp xỉ hàm.
Tôi đang gặp khó khăn với mối quan hệ giữa MDP nơi môi trường được khám phá theo cách xác suất, cách điều này ánh xạ trở lại các tham số học tập và cách tìm ra giải pháp / chính sách cuối cùng.
Tôi có đúng không khi cho rằng trong trường hợp Q-learning, mạng lưới thần kinh về cơ bản hoạt động như một hàm xấp xỉ hàm cho chính giá trị q rất nhiều bước trong tương lai? Làm thế nào để bản đồ này cập nhật các tham số thông qua backpropagation hoặc các phương pháp khác?
Ngoài ra, một khi mạng đã học được cách dự đoán phần thưởng trong tương lai, làm thế nào điều này phù hợp với hệ thống về mặt thực sự đưa ra quyết định? Tôi giả định rằng hệ thống cuối cùng sẽ không thực hiện chuyển đổi trạng thái.
Cảm ơn