Trong bài viết giới thiệu DQN " Chơi Atari với học tập tăng cường sâu ", nó đã đề cập:
Lưu ý rằng khi học bằng phát lại kinh nghiệm, cần phải học chính sách ngoài (vì các tham số hiện tại của chúng tôi khác với các tham số được sử dụng để tạo mẫu), điều này thúc đẩy sự lựa chọn của Q-learning.
Tôi không hiểu ý nghĩa của nó. Điều gì sẽ xảy ra nếu chúng ta sử dụng SARSA và ghi nhớ hành động a'
cho hành động mà chúng ta sẽ thực hiện trong s'
bộ nhớ của mình, sau đó lấy các lô từ nó và cập nhật Q như chúng ta đã làm trong DQN? Và, các phương pháp phê bình diễn viên (cụ thể là A3C) có thể sử dụng phát lại kinh nghiệm không? Nếu không, tại sao?
(s, a, r, s')
và rút kinh nghiệm này ra để phát lại; Bây giờ giả sử chính sách hiện tại của tôi nói rằng bạn nên đia'
vàos'
, sau đó tôi đánh dấuQ(s, a)
nênr + Q(s', a')
và làm gradient descent. Tôi nghĩ rằng tôi đang thực hiện phát lại chính sách. Có vấn đề với quá trình?