Hàm Q là gì và hàm V trong học tăng cường là gì?


30

Dường như với tôi rằng chức năng V có thể dễ dàng được biểu thị bằng chức năng Q và do đó chức năng V dường như là thừa đối với tôi. Tuy nhiên, tôi chưa quen với việc học tăng cường nên tôi đoán mình đã nhầm.

Định nghĩa

Q- và V-learning nằm trong bối cảnh Quy trình Quyết định của Markov . Một MDP là một 5-tuple (S,A,P,R,γ) với

  • S là tập hợp các trạng thái (thường là hữu hạn)
  • A là một tập hợp các hành động (thường là hữu hạn)
  • P(s,s,a)=P(st+1=s|st=s,at=a) là xác suất để có được từ nhà nướcs nhà nướcs với hành độnga .
  • R(s,s,a)R là phần thưởng ngay lập tức sau khi đi từ trạng tháis sang trạng tháis với hành độnga . (Dường như với tôi rằng thường chỉs vấn đề).
  • γ[0,1] được gọi là yếu tố giảm giá và xác định nếu một tập trung vào những phần thưởng ngay lập tức (γ=0 ), tổng phần thưởng (γ=1 ) hoặc một số trade-off.

Một chính sách π , theo Học tăng cường: Giới thiệu của Sutton và Barto là một hàm π:SA (điều này có thể là xác suất).

Theo slide Mario Martins , các V chức năng

Vπ(s)=Eπ{Rt|st=s}=Eπ{k=0γkrt+k+1|st=s}
hàm Q
Qπ(s,a)=Eπ{Rt|st=s,at=a}=Eπ{k=0γkrt+k+1|st=s,at=a}

Suy nghĩ của tôi

Các V bang chức năng gì tổng giá trị dự kiến (không thưởng!) Của một quốc gia s theo chính sách π là.

Hàm cho biết giá trị của trạng thái s và hành động a theo chính sách π là gì.Qsaπ

Điều này có nghĩa là,

Qπ(s,π(s))=Vπ(s)

Đúng? Vậy tại sao chúng ta có hàm giá trị? (Tôi đoán tôi đã trộn lẫn một cái gì đó)

Câu trả lời:


15

Giá trị Q là một cách tuyệt vời để thực hiện các hành động rõ ràng để bạn có thể xử lý các vấn đề trong đó chức năng chuyển đổi không khả dụng (không có mô hình). Tuy nhiên, khi không gian hành động của bạn lớn, mọi thứ không được tốt và giá trị Q không thuận tiện. Hãy nghĩ về một số lượng lớn các hành động hoặc thậm chí không gian hành động liên tục.

Từ góc độ lấy mẫu, tính chiều của Q(s,a) cao hơn V(s) nên có thể khó lấy đủ (s,a) mẫu so với (s) . Nếu bạn có quyền truy cập vào chức năng chuyển đổi đôi khi V là tốt.

Ngoài ra còn có những cách sử dụng khác mà cả hai được kết hợp. Chẳng hạn, hàm lợi thế trong đó A(s,a)=Q(s,a)V(s) . Nếu bạn quan tâm, bạn có thể tìm thấy một ví dụ gần đây bằng cách sử dụng các hàm lợi thế tại đây:

Kiến trúc mạng Dueling cho học tập tăng cường sâu

của Ziyu Wang, Tom Schaul, Matteo Hessel, Hado van Hasselt, Marc Lanctot và Nando de Freitas.


19

Vπ(s) là hàm giá trị trạng thái của MDP (Quy trình quyết định Markov). Đó là lợi nhuận kỳ vọng bắt đầu từ trạng tháis chính sách sau đâyπ .

Trong biểu thức

Vπ(s)=Eπ{Gt|st=s}

Gt là tổng phần thưởng GIẢM GIÁ từ thời điểmt , trái ngược vớiRt là tiền lãi ngay lập tức. Ở đây bạn đang thực hiện kỳ ​​vọng TẤT CẢ các hành động theo chính sáchπ .

Qπ(s,a) là hàm giá trị hành động. Đó là lợi nhuận kỳ vọng bắt đầu từ trạng tháis , theo chính sáchπ , thực hiện hành độnga . Đó là tập trung vào hành động cụ thể ở trạng thái cụ thể.

Qπ(s,a)=Eπ{Gt|st=s,at=a}

Mối quan hệ giữa QπVπ (giá trị của trạng thái đó) là

Vπ(s)=aAπ(a|s)Qπ(a,s)

Bạn tính tổng mọi giá trị hành động nhân với xác suất để thực hiện hành động đó (chính sách π(a|s) ).

Nếu bạn nghĩ về ví dụ thế giới lưới, bạn nhân xác suất của (lên / xuống / phải / trái) với giá trị trạng thái trước một bước là (lên / xuống / phải / trái).


5
Đây là câu trả lời ngắn gọn nhất.
Brett

Vπ(s)=maxaAQπ(s,a)Vπ(s)=aAπ(as)Qπ(a,s)VQVQ

@nbro Tôi tin rằng nó phụ thuộc vào loại chính sách bạn đang theo dõi. Trong một chính sách tham lam thuần túy, bạn là chính xác. Nhưng nếu đó là một chính sách thăm dò hơn, được xây dựng để quyết định một cách ngẫu nhiên một hành động, thì điều trên sẽ đúng
deltaskelta

7

Bạn có quyền, hàm cung cấp cho bạn giá trị của trạng thái và cung cấp cho bạn giá trị của một hành động ở trạng thái (tuân theo chính sách đã cho ). Tôi đã tìm thấy lời giải thích rõ ràng nhất về Q-learning và cách nó hoạt động trong cuốn sách "Machine Learning" của Tom Mitchell (1997), ch. 13, có thể tải xuống. được định nghĩa là tổng của một chuỗi vô hạn nhưng nó không quan trọng ở đây. Vấn đề là hàm được định nghĩa làVQπVQ

Q(s,a)=r(s,a)+γV(δ(s,a))
trong đó V * là giá trị tốt nhất của trạng thái nếu bạn có thể tuân theo chính sách tối ưu mà bạn không cho Tôi không biết. Tuy nhiên, nó có một đặc tính tốt về mặt Tính toán được thực hiện bằng cách thay thế trong phương trình đầu tiên để cung cấp Q
V(s)=maxaQ(s,a)
QV
Q(s,a)=r(s,a)+γmaxaQ(δ(s,a),a)

Lúc đầu, điều này có vẻ như là một đệ quy kỳ lạ vì nó biểu thị giá trị Q của một hành động ở trạng thái hiện tại theo giá trị Q tốt nhất của trạng thái kế , nhưng nó có ý nghĩa khi bạn xem cách quá trình sao lưu sử dụng nó: quá trình dừng lại khi đạt đến trạng thái mục tiêu và thu thập phần thưởng, trở thành giá trị Q của quá trình chuyển đổi cuối cùng. Bây giờ trong tập huấn luyện tiếp theo, khi quá trình thăm dò đạt đến trạng thái tiền thân đó, quá trình sao lưu sử dụng đẳng thức trên để cập nhật giá trị Q hiện tại của trạng thái tiền thân. Tiếp theo thời gian của mìnhngười tiền nhiệm được truy cập giá trị Q của trạng thái được cập nhật, và cứ thế quay ngược dòng (cuốn sách của Mitchell mô tả một cách hiệu quả hơn để làm điều này bằng cách lưu trữ tất cả các tính toán và phát lại chúng sau). Với điều kiện mọi trạng thái được truy cập vô hạn thường xuyên, quá trình này cuối cùng sẽ tính Q tối ưu

Đôi khi bạn sẽ thấy tốc độ học tập được áp dụng để kiểm soát lượng Q thực sự được cập nhật: Lưu ý rằng việc cập nhật giá trị Q không phụ thuộc vào giá trị Q hiện tại. Cuốn sách của Mitchell cũng giải thích lý do tại sao và đó là lý do tại sao bạn cần : cuốn sách dành cho MDP ngẫu nhiên. Nếu không có , mỗi khi một trạng thái, cặp hành động được thử sẽ có một phần thưởng khác nhau để hàm Q ^ sẽ nảy khắp nơi và không hội tụ. ở đó để kiến ​​thức mới chỉ được chấp nhận một phần.α

Q(s,a)=(1α)Q(s,a)+α(r(s,a)+γmaxaQ(s,a))
=Q(s,a)+α(r(s,a)+γmaxaQ(s,a)Q(s,a))
ααααđược đặt ở mức cao để các giá trị hiện tại (chủ yếu là ngẫu nhiên) của Q ít ảnh hưởng hơn. bị giảm khi quá trình đào tạo tiến triển, do đó các cập nhật mới ngày càng ít ảnh hưởng hơn và giờ đây, việc học Q hội tụα


0

Dưới đây là một lời giải thích chi tiết hơn về mối quan hệ giữa giá trị nhà nước và giá trị hành động trong câu trả lời của Aaron. Trước tiên chúng ta hãy xem định nghĩa của hàm giá trị và hàm giá trị hành động theo chính sách : trong đó là lợi nhuận tại thời điểm . Mối quan hệ giữa hai hàm giá trị này có thể được suy ra là π

vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a]
Gt=k=0γkRt+k+1t
vπ(s)=E[Gt|St=s]=gtp(gt|St=s)gt=gtap(gt,a|St=s)gt=ap(a|St=s)gtp(gt|St=s,At=a)gt=ap(a|St=s)E[Gt|St=s,At=a]=ap(a|St=s)qπ(s,a)
Phương trình trên rất quan trọng. Nó mô tả mối quan hệ giữa hai hàm giá trị cơ bản trong học tập củng cố. Nó là hợp lệ cho bất kỳ chính sách. Hơn nữa, nếu chúng ta có chính sách xác định , thì . Hy vọng điều này là hữu ích cho bạn. (để xem thêm về phương trình tối ưu Bellman https: //stats.stackexchange.vπ(s)=qπ(s,π(s)))


0

Hàm giá trị là một công thức trừu tượng của tiện ích. Và hàm Q được sử dụng cho thuật toán Q-learning.


Đối với bối cảnh của câu hỏi này, và là khác nhau. VQ
Siong Thye Goh
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.