Sự khác biệt giữa học tập ngoài chính sách và chính sách là gì?


79

Trang web trí tuệ nhân tạo định nghĩa học tập ngoài chính sách và chính sách như sau:

"Một người học ngoài chính sách học giá trị của chính sách tối ưu một cách độc lập với các hành động của đại lý. Q-learning là một người học ngoài chính sách. Một người học về chính sách học về giá trị của chính sách được thực hiện bởi đại lý bao gồm các bước thăm dò . "

Tôi muốn hỏi làm rõ của bạn về điều này, bởi vì họ dường như không làm cho bất kỳ sự khác biệt với tôi. Cả hai định nghĩa có vẻ như chúng giống hệt nhau. Những gì tôi thực sự hiểu là học tập dựa trên mô hình và dựa trên mô hình, và tôi không biết liệu chúng có liên quan gì đến những câu hỏi không.

Làm thế nào có thể chính sách tối ưu được học độc lập với hành động của đại lý? Không phải chính sách đã học khi đại lý thực hiện các hành động sao?


1
Tôi đã thêm một nhận xét vào stackoverflow.com/questions/6848828/ , phần TL; NR cũng có thể hữu ích với sự hiểu biết.
zyxue

đây là một lời giải thích tốt nb4799.neu.edu/wordpress/?p=1850
Ivan Kush

Tôi cũng muốn nói thêm rằng có một biến thể ngoài chính sách của SARSA. Bài viết này ( cs.ox.ac.uk/people/shimon.whiteson/pub/vanseijenadprl09.pdf ) sẽ xem xét và tắt chính sách trong phần giới thiệu, sau đó giải thích sarsa dự kiến. Cũng tìm kiếm độ dốc chính sách dự kiến ​​(EPG) để tìm một lý thuyết tổng quát hơn, chia lưới hai loại.
Josh Albert

Câu trả lời:


94

Trước hết, không có lý do gì mà một đặc vụ phải thực hiện hành động tham lam đó ; Đại lý có thể khám phá hoặc họ có thể làm theo các tùy chọn . Đây không phải là những gì tách biệt chính sách với học tập ngoài chính sách.

Lý do Q-learning không chính sách là vì nó cập nhật các giá trị Q của nó bằng cách sử dụng giá trị Q của trạng thái tiếp theo và hành động tham lam . Nói cách khác, nó ước tính lợi nhuận (tổng phần thưởng được chiết khấu trong tương lai) cho các cặp hành động nhà nước giả định rằng một chính sách tham lam đã được tuân theo mặc dù thực tế là nó không tuân theo chính sách tham lam.smột ' a

Lý do SARSA nằm trong chính sách là vì nó cập nhật các giá trị Q của nó bằng cách sử dụng giá trị Q của trạng thái tiếp theo và chính sách hiện tại là hành động . Nó ước tính lợi nhuận cho các cặp hành động nhà nước giả định chính sách hiện tại tiếp tục được tuân theo.sa

Sự khác biệt biến mất nếu chính sách hiện tại là một chính sách tham lam. Tuy nhiên, một tác nhân như vậy sẽ không tốt vì nó không bao giờ khám phá.

Bạn đã xem cuốn sách có sẵn miễn phí trực tuyến? Richard S. Sutton và Andrew G. Barto. Học tăng cường: Giới thiệu. Ấn bản thứ hai, MIT Press, Cambridge, MA, 2018.


8
giải thích tốt đẹp! Ví dụ của bạn về Q-learning được hình thành tốt hơn trong cuốn sách của Sutton có nội dung: " hàm giá trị hành động đã học, Q, xấp xỉ trực tiếp Q *, hàm giá trị hành động tối ưu, độc lập với chính sách được tuân theo. Điều này đơn giản hóa đáng kể phân tích thuật toán và kích hoạt bằng chứng hội tụ sớm. Chính sách này vẫn có tác dụng trong đó xác định cặp hành động nhà nước nào được truy cập và cập nhật. "
Ciprian Tomoiagă

3
Nói chung, tôi không thấy Sutton và Barto rất dễ đọc cả. Tôi thấy những lời giải thích họ đưa ra không dễ hiểu lắm. Tôi không chắc tại sao cuốn sách của họ được đề xuất ở mọi nơi
SN

@SN Đối với nhiều sinh viên học tăng cường, Sutton và Barto là cuốn sách đầu tiên họ đọc.
Neil G

3
@JakubArnold cuốn sách Sutton & Barto ban đầu là từ năm 1998 và nó không bao gồm học tập củng cố sâu. Phiên bản thứ 2 chỉ đề cập đến những thứ như AlphaGo, nhưng trọng tâm của cuốn sách là ở những cách tiếp cận cổ điển hơn. Nếu bạn muốn có thêm tài nguyên RL, hãy xem danh sách này . Tôi đề nghị các video của David Silver và cuốn sách của Puterman vì chúng dễ tiếp cận hơn. Để có thêm tài liệu lý thuyết, tôi giới thiệu sách của Bertsekas. Hãy xem trang web của Spin Up để biết các thuật toán và liên kết đến các bài báo gốc.
Douglas De Rizzo Meneghetti

1
@AlbertChen "Vì vậy, trong trường hợp này, nó có phụ thuộc vào thăm dò hay không": Không, bởi vì cả hai thuật toán đều khám phá. Sự khác biệt là cách Q được cập nhật.
Neil G

13

Các phương thức chính sách ước tính giá trị của một chính sách trong khi sử dụng nó để kiểm soát.

Trong các phương pháp ngoài chính sách , chính sách được sử dụng để tạo hành vi, được gọi là chính sách hành vi , có thể không liên quan đến chính sách được đánh giá và cải thiện, được gọi là chính sách ước tính .

Một lợi thế của sự tách biệt này là chính sách ước tính có thể mang tính quyết định (ví dụ như tham lam), trong khi chính sách hành vi có thể tiếp tục lấy mẫu tất cả các hành động có thể.

Để biết thêm chi tiết, xem phần 5.4 và 5.6 của cuốn sách Học tăng cường: Giới thiệu của Barto và Sutton, ấn bản đầu tiên.


7

Sự khác biệt giữa các phương thức Chính sách ngoại tuyến và Chính sách là với lần đầu tiên bạn không cần tuân theo bất kỳ chính sách cụ thể nào, đại lý của bạn thậm chí có thể cư xử ngẫu nhiên và mặc dù vậy, các phương pháp ngoài chính sách vẫn có thể tìm thấy chính sách tối ưu. Mặt khác, các phương thức chính sách phụ thuộc vào chính sách được sử dụng. Trong trường hợp Q-Learning, chính sách ngoài chính sách, nó sẽ tìm thấy chính sách tối ưu độc lập với chính sách được sử dụng trong quá trình khám phá, tuy nhiên điều này chỉ đúng khi bạn truy cập các trạng thái khác nhau đủ lần. Bạn có thể tìm thấy trong bài báo gốc của Watkins bằng chứng thực tế cho thấy tài sản rất hay này của Q-Learning. Tuy nhiên, có một sự đánh đổi và đó là các phương pháp ngoài chính sách có xu hướng chậm hơn các phương pháp chính sách. Đây là một liên kết với tóm tắt thú vị khác thuộc tính của cả hai loại phương pháp


1
Các phương pháp ngoài chính sách không chỉ chậm hơn mà còn không ổn định khi kết hợp với bootstrapping (tức là cách Q-learning xây dựng các ước tính từ nhau) và các hàm xấp xỉ hàm (ví dụ: mạng nơ ron).
Neil Slater

7

Trước hết, chính sách thực sự (ký hiệu là ) nghĩa là gì? Chính sách chỉ định một hành động , được thực hiện ở trạng thái (hay chính xác hơn là là một xác suất, rằng một hành động được thực hiện ở trạng thái ).π
asπas

Thứ hai, chúng ta có những kiểu học nào?
1. Đánh giá hàm : dự đoán tổng các phần thưởng giảm giá trong tương lai, trong đó là một hành động và là một trạng thái. 2. Tìm (thực tế, ), mang lại phần thưởng tối đa.Q(s,a)as
ππ(a|s)

Quay lại câu hỏi ban đầu. Học tập theo chính sách và ngoài chính sách chỉ liên quan đến nhiệm vụ đầu tiên: đánh giá .Q(s,a)

Sự khác biệt là thế này:
Trong học tập theo chính sách, hàm được học từ các hành động, chúng tôi đã sử dụng chính sách hiện tại của mình . Trong học tập ngoài chính sách, hàm được học từ các hành động khác nhau (ví dụ: các hành động ngẫu nhiên). Chúng tôi thậm chí không cần một chính sách nào cả!Q(s,a)π
Q(s,a)

Đây là chức năng cập nhật cho thuật toán SARSA theo chính sách : , trong đó là hành động, được thực hiện theo chính sách .Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))aπ

So sánh nó với chức năng cập nhật cho thuật toán Q-learning ngoài chính sách : , trong đó là tất cả các hành động, đã được thăm dò ở trạng thái .Q(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))as


1

Từ cuốn sách Sutton: "Cách tiếp cận chính sách trong phần trước thực sự là một sự thỏa hiệp, nó học các giá trị hành động không phải cho chính sách tối ưu, nhưng đối với một chính sách gần như tối ưu vẫn khám phá. Cách tiếp cận đơn giản hơn là sử dụng hai chính sách , một chính sách được học và trở thành chính sách tối ưu, và một chính sách mang tính khám phá hơn và được sử dụng để tạo hành vi. Chính sách được tìm hiểu được gọi là chính sách mục tiêu và chính sách được sử dụng để tạo hành vi được gọi là chính sách hành vi. Trong trường hợp này, chúng tôi nói rằng việc học tập là từ dữ liệu Chính sách mục tiêu và quá trình tổng thể được gọi là học tập chính sách. "


nếu bạn làm theo mô tả này, thật không dễ để biết tại sao Q-learning không chính sách
Albert Chen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.