2
Tại sao Q-learning không hội tụ khi sử dụng xấp xỉ hàm?
Thuật toán Q-learning dạng bảng được đảm bảo để tìm hàm tối ưu , , với các điều kiện sau (điều kiện Robbins-Monro ) về tốc độ học tập được thỏa mãnQQQQ*Q*Q^* Σtαt( S , một ) = ∞Σtαt(S,một)= =∞\sum_{t} \alpha_t(s, a) = \infty Σtα2t( s , a ) < …