Tại sao luôn có ít nhất một chính sách tốt hơn hoặc bằng tất cả các chính sách khác?


13

Học tăng cường: Giới thiệu. Phiên bản thứ hai, đang được tiến hành ., Richard S. Sutton và Andrew G. Barto (c) 2012, trang 67-68.

Giải quyết một nhiệm vụ học tập củng cố có nghĩa là, đại khái, tìm ra một chính sách đạt được rất nhiều phần thưởng trong thời gian dài. Đối với MDP hữu hạn, chúng tôi có thể xác định chính xác một chính sách tối ưu theo cách sau. Các hàm giá trị xác định một thứ tự một phần trên các chính sách. Một chính sách π được định nghĩa là tốt hơn hơn hoặc tương đương với một chính sách π nếu lợi nhuận kỳ vọng của nó là lớn hơn hoặc bằng với của π , cho tất cả các quốc gia. Nói cách khác, ππ khi và chỉ khi vπ(s)vπ(s) , cho tất cả sS . Luôn có ít nhất một chính sách tốt hơn hoặc bằng tất cả các chính sách khác. Đây là một chính sách tối ưu.

Tại sao luôn có ít nhất một chính sách tốt hơn hoặc bằng tất cả các chính sách khác?


Một bằng chứng rất chi tiết (sử dụng định lý điểm cố định của Banach) xuất hiện trong chương 6.2 của "Quy trình quyết định Markov" của Puterman.
Toghs

Câu trả lời:


3

Chỉ cần vượt qua phần trích dẫn, cùng một đoạn thực sự cho bạn biết chính sách này là gì: đó là chính sách có hành động tốt nhất ở mọi tiểu bang. Trong MDP, hành động chúng ta thực hiện ở một trạng thái không ảnh hưởng đến phần thưởng cho các hành động được thực hiện ở người khác, vì vậy chúng ta chỉ có thể tối đa hóa chính sách theo từng tiểu bang.


Không phải câu trả lời này là hoàn toàn sai? Làm thế nào bạn có thể nói rằng tối ưu hóa trạng thái chính sách theo trạng thái dẫn đến chính sách tối ưu. Nếu tôi tối ưu hóa qua trạng thái St và nó đưa tôi St+1 và sau đó tối ưu hóa ở St+1 dẫn đến hàm giá trị tối ưu Vt+1 nhưng có một chính sách khác trong đó St dẫn tối ưu đến Sl và tối ưu hàm giá trị của Sl cao hơn Vt+1 . Làm thế nào bạn có thể loại trừ điều này bằng cách phân tích chữ thảo như vậy?
MiloMinderbinder

@MiloMinderbinder Nếu chính sách tối ưu tại St là chọn St+1 , thì giá trị của St+1 cao hơn giá trị của Sl .
Don Reba

Lỗi của tôi. Typo đã sửa: 'Không phải câu trả lời này hoàn toàn sai sao? Làm thế nào bạn có thể nói rằng tối ưu hóa trạng thái chính sách theo trạng thái dẫn đến chính sách tối ưu? Nếu tôi tối ưu hóa qua trạng thái St và nó đưa tôi đến St+1 và sau đó tối ưu hóa ở St+1 dẫn đến hàm giá trị tối ưu Vt+2 của St+2 nhưng có một chính sách khác trong đó St mặc dù dẫn cận lâm sàng với Sl+1 và do đó hàm giá trị của St+1cao hơn Vl+1 nhưng hàm giá trị của St+2 cao hơn theo chính sách này so với chính sách được tìm thấy bằng cách tối ưu hóa trạng thái theo trạng thái. Làm thế nào là điều này vượt quá khả năng của bạn? '
MiloMinderbinder

Tôi nghĩ rằng định nghĩa của V sẽ ngăn điều này xảy ra ngay từ đầu, vì nó cũng sẽ tính đến lợi nhuận trong tương lai.
Flying_Banana

Câu hỏi đặt ra sau đó sẽ là: tại sao tồn tại? Bạn không thể đi xung quanh Định lý điểm cố định Banach :-)q
Fabian Werner

10

Sự tồn tại của một chính sách tối ưu là không rõ ràng. Để xem tại sao, lưu ý rằng hàm giá trị chỉ cung cấp một thứ tự một phần trên không gian của các chính sách. Điều này có nghĩa là:

ππvπ(s)vπ(s),sS

Vì đây chỉ là một trật tự một phần, có thể là một trường hợp hai chính sách, π 2 , không thể so sánh. Nói cách khác, có các tập hợp con của không gian trạng thái, S 1S 2 sao cho:π1π2S1S2

vπ(s)vπ(s),sS1

vπ(s)vπ(s),sS2

Trong trường hợp này, chúng tôi không thể nói rằng một chính sách tốt hơn chính sách kia. Nhưng nếu chúng ta đang xử lý các MDP hữu hạn với các hàm giá trị giới hạn, thì một kịch bản như vậy không bao giờ xảy ra. Có chính xác một hàm giá trị tối ưu, mặc dù có thể có nhiều chính sách tối ưu.

Để chứng minh điều này, bạn cần hiểu định lý Banach Fixed Point. Để phân tích chi tiết, xin vui lòng tham khảo .


7

Cài đặt

Chúng tôi đang xem xét trong cài đặt:

  • Hành động rời rạc
  • Các trạng thái rời rạc
  • Phần thưởng giới hạn
  • Chính sách văn phòng phẩm
  • Chân trời vô tận

Các chính sách tối ưu được định nghĩa là: chức năng giá trị tối ưu là: V * = max π V π ( s ) , s S Có thể có một bộ của các chính sách đạt được tối đa. Nhưng chỉ có một chức năng giá trị tối ưu: V * = V π *

(1)πargmaxπVπ(s),sS
(2)V=maxπVπ(s),sS
(3)V=Vπ

Câu hỏi

Làm thế nào để chứng minh rằng có tồn tại ít nhất một mà thỏa mãn (1) đồng thời cho tất cả s S ?πsS

Đề cương chứng minh

  1. Xây dựng phương trình tối ưu được sử dụng như một định nghĩa thay thế tạm thời của hàm giá trị tối ưu, chúng ta sẽ chứng minh ở bước 2 rằng nó tương đương với định nghĩa thông qua phương trình (2).

    (4)V(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
  2. Suy ra tính tương đương của việc xác định hàm giá trị tối ưu thông qua phương trình (4) và qua phương trình (2).

    (Lưu ý trong thực tế, chúng ta chỉ cần hướng cần thiết trong bằng chứng, bởi vì sự đầy đủ là hiển nhiên vì chúng ta đã xây dựng phương trình (4) từ phương trình (2).)

  3. Chứng minh rằng có một giải pháp duy nhất cho phương trình (4).

  4. Ở bước 2, chúng ta biết rằng giải pháp thu được ở bước 3 cũng là một giải pháp cho phương trình (2), vì vậy đây là một hàm giá trị tối ưu.

  5. Từ hàm giá trị tối ưu, chúng ta có thể khôi phục chính sách tối ưu bằng cách chọn hành động tối đa hóa trong biểu thức (4) cho mỗi trạng thái.

Chi tiết các bước

1

Kể từ khi , chúng ta có V π * ( s ) max một A Q π * ( s , một ) . Và nếu có bất kỳ ~ sV π *max một V(s)=Vπ(s)=Ea[Qπ(s,a)]Vπ(s)maxaAQπ(s,a)s~, chúng ta có thể chọn một chính sách tốt hơn bằng cách tối đa hóaQ * (s,một)=Q π * (s,một)trênmột.VπmaxaAQπ(s,a)Q(s,a)=Qπ(s,a)a

2

(=>)

Theo bước 1.

(<=)

ví dụ: Nếu thỏa mãn ~ V ( s ) = max một A [ R ( s , một ) + γV~ , sau đó ~ V ( s ) = V * ( s ) = max π V π ( s ) , s S .V~(s)=maxaA[R(s,a)+γsST(s,a,s)V~(s)]V~(s)=V(s)=maxπVπ(s),sS

Xác định Bellman điều hành tối ưu như

(5)TV(s)=maxaA[R(s,a)+γsST(s,a,s)V(s)]
V~=TV~V~=V

V~TV~, then V~V.

b) If V~TV~, then V~V.

Proof:

a)

For any π=(d1,d2,...),

V~TV~=maxd[Rd+γPdV~]Rd1+γPd1V~
Here d is the decision rule(action profile at specific time), Rd is the vector representation of immediate reward induced from d and Pd is transition matrix induced from d.

By induction, for any n,

V~Rd1+i=1n1γiPπiRdi+1+γnPπnV~
where Pπj represents the j-step transition matrix under π.

Since

Vπ=Rd1+i=1γiPπiRdi+1
we have
V~VπγnPπnV~i=nγiPπiRdi+10 as n
So we have V~Vπ. And since this holds for any π, we conclude that
V~maxπVπ=V
b)

Follows from step 1.

3

The optimal Bellman operator is a contraction in L norm, cf. [2].

Proof: For any s,

|TV1(s)TV2(s)|=|maxaA[R(s,a)+γsST(s,a,s)V1(s)]maxaA[R(s,a)+γsST(s,a,s)V(s)]|()|maxaA[γsST(s,a,s)(V1(s)V2(s))]|γV1V2
where in (*) we used the fact that
maxaf(a)maxag(a)maxa[f(a)g(a)]

Thus by Banach fixed point theorum it follows that T has a unique fixed point.

References

[1] Puterman, Martin L.. “Markov Decision Processes : Discrete Stochastic Dynamic Programming.” (2016).

[2] A. Lazaric. http://researchers.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14_files/slides-lecture-02-handout.pdf


-1

The policy a=π(s) gives the best action a to execute in state s according to policy π, i.e. the value function vπ(s)=maxaAqπ(s,a) is highest for action a in state s.

There is always at least one policy that is better than or equal to all other policies.

Thus there is always a policy π which gives equal or higher expected rewards than policy π. Note that this implies that π could be an/the optimal policy (π) itself.


3
How does this answer the question? You're basically repeating statements written in the quote.
nbro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.