Trong học tập củng cố, mục tiêu của chúng tôi là tối ưu hóa hàm giá trị trạng thái hoặc hàm giá trị hành động, được xác định như sau:
VπS= ∑ p ( s'| s,π( s ) ) [ r ( s'| s,π( S ) ) + γVπ( s') ] = Eπ[ r ( s'| s,một)+γVπ( s') | S0= s ]
Qπ( s , a ) = ∑ p ( s'| s,s)[r( s'| s,một)+γVπ( s') ] = Eπ[ r ( s'| s,một)+γVπ( s') | S0= s , a0= a ]
Tuy nhiên, khi chúng tôi sử dụng phương pháp Q-learning để có được chiến lược tối ưu, phương pháp cập nhật sẽ như sau:
Q ( S, A ) ← Q ( S , Một ) + α [ R + γm a xmột( Q ( s',a))−Q(S,A)]
Câu hỏi của tôi là:
tại sao trong Q-learning không có xác suất chuyển tiếp . Có nghĩa là chúng ta không cần này khi lập mô hình MDP?p(s′|s,a)p