Trong bài viết của DeepMind về Deep Q-Learning cho các trò chơi video Atari ( ở đây ), họ sử dụng một phương pháp tham lam epsilon để khám phá trong quá trình đào tạo. Điều này có nghĩa là khi một hành động được chọn trong đào tạo, nó sẽ được chọn là hành động có giá trị q cao nhất hoặc một hành động ngẫu nhiên. Lựa chọn giữa hai điều này là ngẫu nhiên và dựa trên giá trị của epsilon và epsilon bị hủy trong quá trình đào tạo, ban đầu, rất nhiều hành động ngẫu nhiên được thực hiện (thăm dò), nhưng khi tiến hành đào tạo, rất nhiều hành động với giá trị q tối đa được thực hiện (khai thác).
Sau đó, trong quá trình thử nghiệm, họ cũng sử dụng phương pháp tham lam epsilon này, nhưng với epsilon ở giá trị rất thấp, do đó có sự thiên vị mạnh mẽ đối với việc khai thác trong thăm dò, ưu tiên chọn hành động có giá trị q cao nhất so với hành động ngẫu nhiên. Tuy nhiên, hành động ngẫu nhiên đôi khi vẫn được chọn (5% thời gian).
Câu hỏi của tôi là: Tại sao mọi sự thăm dò cần thiết ở thời điểm này, cho rằng việc đào tạo đã được thực hiện? Nếu hệ thống đã học được chính sách tối ưu, thì tại sao hành động không thể luôn được chọn là chính sách có giá trị q cao nhất? Không nên thăm dò chỉ được thực hiện trong đào tạo, và sau đó một khi chính sách tối ưu được học, tác nhân có thể liên tục chọn hành động tối ưu?
Cảm ơn!