Ký hiệu tôi sẽ sử dụng là từ hai bài giảng khác nhau của David Silver và cũng được thông báo bởi các slide này .
Phương trình Bellman dự kiến là
vπ( S ) = Σmột ∈ Aπ( a | s ) ( RmộtS+ γΣS'∈ SPmộts s'vπ( s') )(1)
Nếu chúng ta để cho
Pπss′=∑a∈Aπ( một|s)Pass'(2)
và
RπS= ∑một ∈ Aπ( a | s ) RmộtS( 3 )
sau đó chúng ta có thể viết lại ( 1 ) như
vπ( s ) = RπS+ γΣS'∈ SPπs s'vπ( s')( 4 )
Điều này có thể được viết dưới dạng ma trận
⎡⎣⎢⎢vπ( 1 )⋮vπ( n )⎤⎦⎥⎥= ⎡⎣⎢⎢Rπ1⋮Rπn⎤⎦⎥⎥+ γ⎡⎣⎢⎢Pπ11⋮Pπn 1Giáo dục⋱Giáo dụcPπ1 n⋮Pπn n⎤⎦⎥⎥⎡⎣⎢⎢vπ( 1 )⋮vπ( n )⎤⎦⎥⎥(5)
Hoặc, gọn hơn,
vπ= Rπ+ γPπvπ( 6 )
( 6 )nn=|S|Tπ:Rn→Rn
Tπ(v)=Rπ+γPπv(7)
v∈Rn
Tương tự, bạn có thể viết lại phương trình tối ưu Bellman
v∗(s)=maxa∈A(Ras+γ∑s′∈SPass′v∗(s′))(8)
as the Bellman optimality operator
T∗(v)=maxa∈A(Ra+γPav)(9)
The Bellman operators are "operators" in that they are mappings from one point to another within the vector space of state values, Rn.
Rewriting the Bellman equations as operators is useful for proving that certain dynamic programming algorithms (e.g. policy iteration, value iteration) converge to a unique fixed point. This usefulness comes in the form of a body of existing work in operator theory, which allows us to make use of special properties of the Bellman operators.
Specifically, the fact that the Bellman operators are contractions gives the useful results that, for any policy π and any initial vector v,
limk→∞(Tπ)kv=vπ(10)
limk→∞(T∗)kv=v∗(11)
where vπ is the value of policy π and v∗ is the value of an optimal policy π∗. The proof is due to the contraction mapping theorem.