Trí tuệ nhân tạo function-approximation

Tại sao Q-learning không hội tụ khi sử dụng xấp xỉ hàm?

Thuật toán Q-learning dạng bảng được đảm bảo để tìm hàm tối ưu , , với các điều kiện sau (điều kiện Robbins-Monro ) về tốc độ học tập được thỏa mãnQQQQ*Q*Q^* Σtαt( S , một ) = ∞Σtαt(S,một)= =∞\sum_{t} \alpha_t(s, a) = \infty Σtα2t( s , a ) < …

11 reinforcement-learning q-learning deep-rl proofs function-approximation

Câu hỏi được gắn thẻ «function-approximation»