Cài đặt
Chúng tôi đang xem xét trong cài đặt:
- Hành động rời rạc
- Các trạng thái rời rạc
- Phần thưởng giới hạn
- Chính sách văn phòng phẩm
- Chân trời vô tận
Các chính sách tối ưu được định nghĩa là:
và chức năng giá trị tối ưu là:
V * = max π V π ( s ) , ∀ s ∈ S
Có thể có một bộ của các chính sách đạt được tối đa. Nhưng chỉ có một chức năng giá trị tối ưu:
V * = V π *
π∗∈argmaxπVπ(s),∀s∈S(1)
V∗=maxπVπ(s),∀s∈S(2)
V∗=Vπ∗(3)
Câu hỏi
Làm thế nào để chứng minh rằng có tồn tại ít nhất một mà thỏa mãn (1) đồng thời cho tất cả s ∈ S ?π∗s∈S
Đề cương chứng minh
Xây dựng phương trình tối ưu được sử dụng như một định nghĩa thay thế tạm thời của hàm giá trị tối ưu, chúng ta sẽ chứng minh ở bước 2 rằng nó tương đương với định nghĩa thông qua phương trình (2).
V∗(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V∗(s′)](4)
Suy ra tính tương đương của việc xác định hàm giá trị tối ưu thông qua phương trình (4) và qua phương trình (2).
(Lưu ý trong thực tế, chúng ta chỉ cần hướng cần thiết trong bằng chứng, bởi vì sự đầy đủ là hiển nhiên vì chúng ta đã xây dựng phương trình (4) từ phương trình (2).)
Chứng minh rằng có một giải pháp duy nhất cho phương trình (4).
Ở bước 2, chúng ta biết rằng giải pháp thu được ở bước 3 cũng là một giải pháp cho phương trình (2), vì vậy đây là một hàm giá trị tối ưu.
Từ hàm giá trị tối ưu, chúng ta có thể khôi phục chính sách tối ưu bằng cách chọn hành động tối đa hóa trong biểu thức (4) cho mỗi trạng thái.
Chi tiết các bước
1
Kể từ khi , chúng ta có V π * ( s ) ≤ max một ∈ A Q π * ( s , một ) . Và nếu có bất kỳ ~ s mà V π * ≠ max một ∈V∗(s)=Vπ∗(s)=Ea[Qπ∗(s,a)]Vπ∗(s)≤maxa∈AQπ∗(s,a)s~, chúng ta có thể chọn một chính sách tốt hơn bằng cách tối đa hóaQ * (s,một)=Q π * (s,một)trênmột.Vπ∗≠maxa∈AQπ∗(s,a)Q∗(s,a)=Qπ∗(s,a)a
2
(=>)
Theo bước 1.
(<=)
ví dụ: Nếu thỏa mãn ~ V ( s ) = max một ∈ A [ R ( s , một ) + γV~ , sau đó ~ V ( s ) = V * ( s ) = max π V π ( s ) , ∀ s ∈ S .V~(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V~(s′)]V~(s)=V∗(s)=maxπVπ(s),∀s∈S
Xác định Bellman điều hành tối ưu như
TV(s)=maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V(s′)](5)
V~=TV~V~=V∗
V~≥TV~, then V~≥V∗.
b) If V~≤TV~, then V~≤V∗.
Proof:
a)
For any π=(d1,d2,...),
V~≥TV~=maxd[Rd+γPdV~]≥Rd1+γPd1V~
Here
d is the decision rule(action profile at specific time),
Rd is the vector representation of immediate reward induced from
d and
Pd is transition matrix induced from
d.
By induction, for any n,
V~≥Rd1+∑i=1n−1γiPiπRdi+1+γnPnπV~
where
Pjπ represents the
j-step transition matrix under
π.
Since
Vπ=Rd1+∑i=1∞γiPiπRdi+1
we have
V~−Vπ≥γnPnπV~−∑i=n∞γiPiπRdi+1→0 as n→∞
So we have
V~≥Vπ. And since this holds for any
π, we conclude that
V~≥maxπVπ=V∗
b)
Follows from step 1.
3
The optimal Bellman operator is a contraction in L∞ norm, cf. [2].
Proof:
For any s,
|TV1(s)−TV2(s)|=∣∣∣∣maxa∈A[R(s,a)+γ∑s′∈ST(s,a,s′)V1(s′)]−maxa′∈A[R(s,a′)+γ∑s′∈ST(s,a′,s′)V(s′)]∣∣∣∣≤(∗)∣∣∣∣maxa∈A[γ∑s′∈ST(s,a,s′)(V1(s′)−V2(s′))]∣∣∣∣≤γ∥V1−V2∥∞
where in (*) we used the fact that
maxaf(a)−maxa′g(a′)≤maxa[f(a)−g(a)]
Thus by Banach fixed point theorum it follows that T has a unique fixed point.
References
[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).
[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf