Các điều kiện hội tụ thuật toán lặp chính sách và giá trị


8

Các thuật toán lặp chính sách và giá trị có thể được sử dụng để giải quyết các vấn đề về quy trình quyết định của Markov. Tôi có một thời gian khó hiểu với các điều kiện cần thiết để hội tụ. Nếu chính sách tối ưu không thay đổi trong hai bước (tức là trong các lần lặp ii + 1 ), liệu có thể kết luận rằng các thuật toán đã hội tụ không? Nếu không thì khi nào?

Câu trả lời:


3

Để trả lời câu hỏi của bạn, trước tiên hãy để tôi viết ra một số đẳng thức quan trọng (trong).

Phương trình tối ưu Bellman:

v(s)=maxaE[Rt+1+γv(St+1)St=s,At=a]=maxasp(ss,a)[r(s,a,s)+γv(s)]

trong đó v(.) là hàm giá trị tối ưu.

Định lý cải tiến chính sách ( Hố ):

Đặt và là bất kỳ cặp chính sách xác định nào sao cho tất cả , Sau đó chính sách phải tốt như, hoặc tốt hơn, . Nghĩa là, nó phải thu được lợi nhuận kỳ vọng lớn hơn hoặc bằng nhau từ tất cả các trạng thái . π ' s S q π ( s , π ' ( s ) ) v π ( s ) π ' π s S : v π ' ( s ) v π ( s )ππsSqπ(s,π(s))vπ(s)ππsS:vπ(s)vπ(s)

(tìm trên trang 89 của Sutton & Barto, Học tăng cường: Sách giới thiệu )

Chúng tôi có thể cải thiện chính sách ở mọi tiểu bang theo quy tắc sau:π

π(s)=argmaxaqπ(s,a)=argmaxasp(ss,a)[r(s,a,s)+γvπ(s)]

Chính sách mới của chúng tôi thỏa mãn điều kiện của Pit và do đó tốt như hoặc tốt hơn . Nếu tốt như, nhưng không tốt hơn , thì cho tất cả . Từ định nghĩa của chúng tôi về chúng tôi suy luận rằng: π π ' π v π ' ( s ) = v π ( s ) s π 'ππππvπ(s)=vπ(s)sπ

vπ(s)=maxaE[Rt+1+γvπ(St+1)St=s,At=a]=maxasp(ss,a)[r(s,a,s)+γvπ(s)]

Nhưng đẳng thức này giống như phương trình tối ưu Bellman nên phải bằng . v *vπv

Từ những điều đã nói ở trên, hy vọng rõ ràng rằng, nếu chúng ta cải thiện một chính sách và có cùng chức năng giá trị, mà chúng ta đã có trước đây, chính sách mới phải là một trong những chính sách tối ưu. Để biết thêm thông tin, xem Sutton & Barto (2012)


1

Bạn đã đúng: ước tính hàm giá trị hiện tại hoặc ước tính chính sách hiện tại hoàn toàn có thể mô tả trạng thái của thuật toán. Mỗi người ngụ ý một lựa chọn tiếp theo duy nhất cho người khác. Từ bài báo được liên kết dưới đây,

"Lặp lại chính sách tiếp tục cho đến khi ."Vn+1=Vn,αn+1=αn

https://editorialexpress.com/jrust/research/siam_dp_apers.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.