Để trả lời câu hỏi của bạn, trước tiên hãy để tôi viết ra một số đẳng thức quan trọng (trong).
Phương trình tối ưu Bellman:
v∗(s)=maxaE[Rt+1+γv∗(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γv∗(s′)]
trong đó v∗(.) là hàm giá trị tối ưu.
Định lý cải tiến chính sách ( Hố ):
Đặt và là bất kỳ cặp chính sách xác định nào sao cho tất cả ,
Sau đó chính sách phải tốt như, hoặc tốt hơn, . Nghĩa là, nó phải thu được lợi nhuận kỳ vọng lớn hơn hoặc bằng nhau từ tất cả các trạng thái . π ' s ∈ S q π ( s , π ' ( s ) ) ≥ v π ( s ) π ' π s ∈ S : v π ' ( s ) ≥ v π ( s )ππ's ∈ Sqπ( s , π'( s ) ) ≥ vπ( s )π'πs ∈ S: vπ'( S ) ≥ vπ( s )
(tìm trên trang 89 của Sutton & Barto, Học tăng cường: Sách giới thiệu )
Chúng tôi có thể cải thiện chính sách ở mọi tiểu bang theo quy tắc sau:π
π'( s )= argtối đamộtqπ( s , a )= argtối đamộtΣS'p ( s'∣ s , a ) [ r ( s , a , s') + Γvπ( s') ]
Chính sách mới của chúng tôi thỏa mãn điều kiện của Pit và do đó tốt như hoặc tốt hơn . Nếu tốt như, nhưng không tốt hơn , thì cho tất cả . Từ định nghĩa của chúng tôi về chúng tôi suy luận rằng: π π ' π v π ' ( s ) = v π ( s ) s π 'π'ππ'πvπ'( s ) = vπ( s )sπ′
vπ′(s)=maxaE[Rt+1+γvπ′(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γvπ′(s′)]
Nhưng đẳng thức này giống như phương trình tối ưu Bellman nên phải bằng . v *vπ′v∗
Từ những điều đã nói ở trên, hy vọng rõ ràng rằng, nếu chúng ta cải thiện một chính sách và có cùng chức năng giá trị, mà chúng ta đã có trước đây, chính sách mới phải là một trong những chính sách tối ưu. Để biết thêm thông tin, xem Sutton & Barto (2012)