4
Tại sao Q-Learning sử dụng epsilon tham lam trong quá trình thử nghiệm?
Trong bài viết của DeepMind về Deep Q-Learning cho các trò chơi video Atari ( ở đây ), họ sử dụng một phương pháp tham lam epsilon để khám phá trong quá trình đào tạo. Điều này có nghĩa là khi một hành động được chọn trong đào tạo, nó …