Tại sao kinh nghiệm phát lại yêu cầu thuật toán ngoài chính sách?


12

Trong bài viết giới thiệu DQN " Chơi Atari với học tập tăng cường sâu ", nó đã đề cập:

Lưu ý rằng khi học bằng phát lại kinh nghiệm, cần phải học chính sách ngoài (vì các tham số hiện tại của chúng tôi khác với các tham số được sử dụng để tạo mẫu), điều này thúc đẩy sự lựa chọn của Q-learning.

Tôi không hiểu ý nghĩa của nó. Điều gì sẽ xảy ra nếu chúng ta sử dụng SARSA và ghi nhớ hành động a'cho hành động mà chúng ta sẽ thực hiện trong s'bộ nhớ của mình, sau đó lấy các lô từ nó và cập nhật Q như chúng ta đã làm trong DQN? Và, các phương pháp phê bình diễn viên (cụ thể là A3C) có thể sử dụng phát lại kinh nghiệm không? Nếu không, tại sao?

Câu trả lời:


2

Các phương thức chính sách, như SARSA, hy vọng rằng các hành động ở mọi tiểu bang được chọn dựa trên chính sách hiện tại của đại lý, thường có xu hướng khai thác phần thưởng.

Làm như vậy, chính sách sẽ tốt hơn khi chúng tôi cập nhật chính sách của mình dựa trên phần thưởng cuối cùng. Cụ thể ở đây, họ cập nhật các tham số của NN dự đoán giá trị của một trạng thái / hành động nhất định).

Nhưng, nếu chúng tôi cập nhật chính sách của mình dựa trên các chuyển đổi được lưu trữ, như trong phát lại kinh nghiệm, chúng tôi thực sự đang đánh giá các hành động từ một chính sách không còn là chính sách hiện tại, vì nó đã phát triển theo thời gian, do đó không còn chính sách nữa.

Các giá trị Q được đánh giá dựa trên phần thưởng trong tương lai mà bạn sẽ nhận được từ một tiểu bang theo chính sách đại lý hiện tại.

Tuy nhiên, điều đó không còn đúng nữa vì bạn hiện đang tuân theo một chính sách khác. Vì vậy, họ sử dụng một phương pháp ngoài chính sách phổ biến, khám phá dựa trên cách tiếp cận tham lam của epsilon.


Cảm ơn bạn, nhưng tôi vẫn không hiểu điều này: nếu tôi sử dụng quy tắc cập nhật TD (0), hãy nhớ một chuyển đổi (s, a, r, s')và rút kinh nghiệm này ra để phát lại; Bây giờ giả sử chính sách hiện tại của tôi nói rằng bạn nên đi a'vào s', sau đó tôi đánh dấu Q(s, a)nên r + Q(s', a')và làm gradient descent. Tôi nghĩ rằng tôi đang thực hiện phát lại chính sách. Có vấn đề với quá trình?
DarkZero ngày

Tôi tin rằng vấn đề là ở chỗ, vì bạn hiện đang sử dụng một chính sách khác so với trước đây và hành động đó được chọn bằng chính sách cũ, bạn thực sự không thể nói rằng đó là chính sách: để đánh giá chính xác giá trị Q của chính sách bạn nên làm nhiều hành động với cùng một. Tại đây, bạn cố gắng đánh giá một chính sách hiện tại bằng cách sử dụng một hành động mà chính sách đó không thể chọn.
Dante ngày

Vì vậy, tôi có thể nói rằng tôi đang thực hiện chính sách này không? Điều gì sẽ là kết quả của việc làm như vậy, trong lý thuyết?
DarkZero

1
Vì vậy, nếu tôi hiểu đúng về bạn, người ta nên sử dụng các phương pháp ngoài chính sách như Q-learning, luôn chọn Q tối đa để làm phần thưởng dự kiến ​​trong tương lai. Không quan trọng hành động hiện tại là gì, bởi vì đó là một đặc tính của việc học Q mà nếu bạn luôn chọn Q tối đa cho tương lai thì Q sẽ hội tụ thành Q theo chính sách tối ưu; Hoặc anh ta nên thẳng thắn tuân theo một chính sách, chọn mọi hành động kể cả những hành động trong tương lai thông qua chính sách này và thực hiện cập nhật chính sách. Có đúng không?
DarkZero

1
Cho đến bây giờ, tôi không thể hiểu tại sao các phương pháp chính sách lại tốt. Các phương pháp ngoài chính sách dường như có nhiều tự do hơn và nó có thể tự khám phá chính sách tối ưu. Bạn có phiền khi trả lời thống kê.stackexchange.com/questions/265354/ không? Cảm ơn bạn rất nhiều cho tất cả các cuộc thảo luận.
DarkZero

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.