Tôi gặp khó khăn trong việc tìm bất kỳ lời giải thích nào về lý do tại sao Q-learning tiêu chuẩn có xu hướng đánh giá quá cao các giá trị q (được giải quyết bằng cách sử dụng Q-learning kép). Các nguồn duy nhất tôi tìm thấy không thực sự giải thích chính xác lý do tại sao sự đánh giá quá cao này xảy ra.
Ví dụ, bài viết trên Wikipedia về Q-learning nói:
Bởi vì giá trị hành động gần đúng tối đa được sử dụng trong bản cập nhật Q-learning, trong môi trường ồn ào, Q-learning đôi khi có thể đánh giá quá cao các giá trị hành động, làm chậm quá trình học.
Điều đó có nghĩa là gì? Tôi hiểu Q-learning, nhưng không phải ở trên. Tại sao việc sử dụng giá trị q tối đa gây ra sự đánh giá quá cao?
Cảm ơn!