Tại sao không có xác suất chuyển tiếp trong Q-Learning (học tăng cường)?


8

Trong học tập củng cố, mục tiêu của chúng tôi là tối ưu hóa hàm giá trị trạng thái hoặc hàm giá trị hành động, được xác định như sau:

VSπ= =Σp(S'|S,π(S))[r(S'|S,π(S))+γVπ(S')]= =Eπ[r(S'|S,một)+γVπ(S')|S0= =S]

Qπ(S,một)= =Σp(S'|S,S)[r(S'|S,một)+γVπ(S')]= =Eπ[r(S'|S,một)+γVπ(S')|S0= =S,một0= =một]

Tuy nhiên, khi chúng tôi sử dụng phương pháp Q-learning để có được chiến lược tối ưu, phương pháp cập nhật sẽ như sau:

Q(S,A) Q(S,A)+α[R+γmaxa(Q(s,a))Q(S,A)]

Câu hỏi của tôi là:

tại sao trong Q-learning không có xác suất chuyển tiếp . Có nghĩa là chúng ta không cần này khi lập mô hình MDP?p(s|s,a)p

Câu trả lời:


6

Các thuật toán không học hàm xác suất chuyển trạng thái được gọi là không có mô hình . Một trong những vấn đề chính với các thuật toán dựa trên mô hình là thường có nhiều trạng thái và một mô hình ngây thơ là bậc hai về số lượng trạng thái. Điều đó áp đặt một yêu cầu dữ liệu rất lớn.

Q-learning là mô hình miễn phí. Nó không học một hàm xác suất chuyển trạng thái.


1
Tuy nhiên, trong MDP, luôn có một xác suất. Nếu không có xác suất chuyển tiếp, điều đó có nghĩa là đây là một mâu thuẫn với giả định cơ bản trong Học tập củng cố, vì RL cho rằng quy trình là Markov.
hokies

3
@FzLbMj Tất nhiên xác suất chuyển tiếp tồn tại ở đâu đó. Vấn đề là - như tôi đã nói - rằng họ không được học .
Neil G

1
@nbro Mô hình dựa trên có nghĩa là học động lực của môi trường. Đây là một mô hình thực hiện điều đó: Kuvayev, D. và Richard S. Sutton. Học tập củng cố dựa trên mô hình. Công nghệ. đại diện trường đại học mass Massachusetts, Khoa khoa học máy tính, 1997. Để tham khảo, bạn có thể sử dụng học giả google khi bạn không biết điều gì đó.
Neil G

1
Tôi vừa gửi cho bạn một bài báo mà bạn có thể đọc có thuật toán học các xác suất chuyển tiếp. Xem phần 5.
Neil G

2
@nbro Chúng tôi rõ ràng có sự bất đồng về định nghĩa, vì vậy nếu bạn muốn thuyết phục, xin hãy ủng hộ khẳng định của bạn bằng một tài liệu tham khảo.
Neil G

2

Để rõ ràng, tôi nghĩ bạn nên thay bằng m a x a ( Q ( S , a ) ) vì chỉ có một hàm giá trị hành động, chúng tôi chỉ đánh giá Q trên các hành động trong trạng thái tiếp theo. Ký hiệu này cũng gợi ý nơi p ( s | s , a ) nằm.maxa(Q,a)maxa(Q(S,a))p(s|s,a)

Theo trực giác, là một tài sản của môi trường. Chúng tôi không kiểm soát cách thức hoạt động mà chỉ lấy mẫu từ nó. Trước khi chúng tôi gọi bản cập nhật này, trước tiên chúng tôi phải thực hiện một hành động A trong khi ở trạng thái S. Quá trình thực hiện việc này mang lại cho chúng tôi phần thưởng và gửi chúng tôi đến trạng thái tiếp theo. Trạng thái tiếp theo mà bạn đặt chân đến được rút ra từ p ( s | s , a ) theo định nghĩa của nó. Vì vậy, trong bản cập nhật Q-learning, về cơ bản, chúng tôi giả sử p ( s | s , a ) là 1 vì đó là nơi chúng tôi đã kết thúc.p(s'|S,một)p(S'|S,một)p(S'|S,một)

Đây là ok vì nó là một phương pháp lặp đi lặp lại mà chúng ta đang ước lượng chức năng hành động có giá trị tối ưu mà không biết sự năng động đầy đủ của môi trường và đặc biệt hơn giá trị của . Nếu bạn tình cờ có một mô hình môi trường cung cấp cho bạn thông tin này, bạn có thể thay đổi bản cập nhật để bao gồm nó bằng cách thay đổi trả về thành γ p ( S | S , A ) m a x a ( Q ( S , a ) ) .p(S|S',một)γp(S'|S,Một)mmộtxmột(Q(S',một))


Cảm ơn bạn rất nhiều vì đã trả lời của bạn. Vì vậy, khi chúng ta sử dụng Q-learning, chúng ta chỉ cần giả sử tất cả các hành động đều có xác suất bằng nhau. BTW, bạn có ý tưởng nào về việc nên sử dụng phương pháp nào ( SARSAhoặc Q-learning) khi xử lý các tình huống khác nhau không? cảm ơn.
hokies

Chúng tôi không cho rằng tất cả các hành động có xác suất như nhau. Chúng tôi giả định rằng hàm chuyển đổi là xác định cho tính toán của chúng tôi. Có nghĩa là nếu bạn thực hiện cùng một hành động từ cùng một trạng thái, bạn sẽ đến trạng thái tiếp theo. Đối với Sarsa vs Q-learning, hãy xem tại đây: stackoverflow.com/questions/6848828/NH
Alex

0

Ngoài những điều trên, Q-Learning là một thuật toán không có mô hình , điều đó có nghĩa là đại lý của chúng tôi chỉ biết các trạng thái mà môi trường mang lại cho nó. Nói cách khác, nếu một tác nhân chọn và thực hiện một hành động, trạng thái tiếp theo chỉ được xác định bởi môi trường và cung cấp cho tác nhân. Vì lý do đó, các đại lý không nghĩ về xác suất chuyển trạng thái.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.