Mối quan hệ giữa phương pháp học tập chính sách và độ dốc chính sách là gì?


20

Theo tôi hiểu, Q-learning và độ dốc chính sách (PG) là hai phương pháp chính được sử dụng để giải quyết các vấn đề RL. Trong khi Q-learning nhằm mục đích dự đoán phần thưởng của một hành động nhất định được thực hiện ở một trạng thái nhất định, thì độ dốc chính sách trực tiếp dự đoán chính hành động đó.

Tuy nhiên, cả hai cách tiếp cận đều giống hệt tôi, tức là dự đoán phần thưởng tối đa cho một hành động (Q-learning) tương đương với dự đoán xác suất thực hiện hành động trực tiếp (PG). Là sự khác biệt trong cách mất mát được lan truyền trở lại?

Câu trả lời:


19

Tuy nhiên, cả hai cách tiếp cận đều giống hệt tôi, tức là dự đoán phần thưởng tối đa cho một hành động (Q-learning) tương đương với dự đoán xác suất thực hiện hành động trực tiếp (PG).

Cả hai phương pháp đều được điều khiển theo lý thuyết bởi cấu trúc Quy trình Quyết định Markov và kết quả là sử dụng các ký hiệu và khái niệm tương tự. Ngoài ra, trong các môi trường có thể giải quyết đơn giản, bạn nên mong đợi cả hai phương pháp đều dẫn đến cùng một chính sách - hoặc ít nhất là tương đương - chính sách tối ưu.

Tuy nhiên, họ thực sự khác nhau trong nội bộ. Sự khác biệt cơ bản nhất giữa các cách tiếp cận là cách chúng tiếp cận lựa chọn hành động, cả trong khi học và là đầu ra (chính sách đã học). Trong Q-learning, mục tiêu là học một hành động xác định duy nhất từ ​​một tập hợp hành động riêng biệt bằng cách tìm giá trị tối đa. Với độ dốc chính sách và các tìm kiếm chính sách trực tiếp khác, mục tiêu là tìm hiểu bản đồ từ trạng thái đến hành động, có thể ngẫu nhiên và hoạt động trong không gian hành động liên tục.

Do đó, các phương thức gradient chính sách có thể giải quyết các vấn đề mà các phương thức dựa trên giá trị không thể:

  • Không gian hành động lớn và liên tục. Tuy nhiên, với các phương pháp dựa trên giá trị, điều này vẫn có thể được tính gần đúng với sự rời rạc - và đây không phải là một lựa chọn tồi, vì hàm ánh xạ trong gradient chính sách phải là một loại xấp xỉ trong thực tế.

  • Chính sách ngẫu nhiên. Phương pháp dựa trên giá trị không thể giải quyết một môi trường trong đó chính sách tối ưu là ngẫu nhiên đòi hỏi xác suất cụ thể, chẳng hạn như Scissor / Paper / Stone. Đó là bởi vì không có tham số có thể huấn luyện trong Q-learning kiểm soát xác suất hành động, việc xây dựng vấn đề trong học tập TD giả định rằng một tác nhân xác định có thể là tối ưu.

Tuy nhiên, các phương pháp dựa trên giá trị như Q-learning cũng có một số lợi thế:

  • p(một|S,θ)θ

  • Tốc độ. Các phương pháp học TD mà bootstrap thường học chính sách nhanh hơn nhiều so với các phương pháp phải hoàn toàn lấy mẫu từ môi trường để đánh giá tiến trình.

Có những lý do khác khiến bạn có thể quan tâm đến việc sử dụng một hoặc một phương pháp khác:

  • Bạn có thể muốn biết lợi nhuận dự đoán trong khi quy trình đang chạy, để giúp các quy trình lập kế hoạch khác liên quan đến đại lý.

  • Đại diện trạng thái của vấn đề cho vay dễ dàng hơn cho hàm giá trị hoặc hàm chính sách. Hàm giá trị có thể có mối quan hệ rất đơn giản với trạng thái và hàm chính sách rất phức tạp và khó học, hoặc ngược lại .

Một số người giải quyết RL hiện đại thực sự sử dụng cả hai cách tiếp cận với nhau, chẳng hạn như Actor-Critic. Điều này kết hợp các điểm mạnh của giá trị và phương pháp gradient chính sách.


Ý bạn là gì khi bạn nói rằng nhà phê bình diễn viên kết hợp sức mạnh của cả hai phương pháp? Theo hiểu biết của tôi, diễn viên đánh giá hành động tốt nhất để thực hiện dựa trên trạng thái và nhà phê bình đánh giá giá trị của trạng thái đó, sau đó cung cấp phần thưởng cho diễn viên. Đối xử với họ như một đơn vị "Chính sách" duy nhất vẫn giống như độ dốc chính sách đối với tôi. Tại sao điều này thực sự giống như Q-learning?
Gulzar

1
@Guizar: Nhà phê bình học bằng phương pháp dựa trên giá trị (ví dụ: Q-learning). Vì vậy, về tổng thể, nhà phê bình diễn viên là sự kết hợp giữa phương pháp giá trị và phương pháp gradient chính sách và nó được hưởng lợi từ sự kết hợp. Một cải tiến đáng chú ý so với PG "vanilla" là độ dốc có thể được đánh giá theo từng bước, thay vì ở cuối mỗi tập. Nếu bạn đang tìm kiếm một câu trả lời chi tiết hơn về chủ đề này, bạn nên đặt câu hỏi trên trang web.
Neil Slater

@ Guide Tuy nhiên, phần còn lại mô tả của tôi vẫn giống nhau, nhà phê bình thường được cập nhật bằng các phương pháp TD dựa trên giá trị, trong đó học Q cũng là một ví dụ.
Neil Slater
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.