3
Tại sao Q-learning đánh giá quá cao giá trị hành động?
Tôi gặp khó khăn trong việc tìm bất kỳ lời giải thích nào về lý do tại sao Q-learning tiêu chuẩn có xu hướng đánh giá quá cao các giá trị q (được giải quyết bằng cách sử dụng Q-learning kép). Các nguồn duy nhất tôi tìm thấy không thực …