Tuy nhiên, cả hai cách tiếp cận đều giống hệt tôi, tức là dự đoán phần thưởng tối đa cho một hành động (Q-learning) tương đương với dự đoán xác suất thực hiện hành động trực tiếp (PG).
Cả hai phương pháp đều được điều khiển theo lý thuyết bởi cấu trúc Quy trình Quyết định Markov và kết quả là sử dụng các ký hiệu và khái niệm tương tự. Ngoài ra, trong các môi trường có thể giải quyết đơn giản, bạn nên mong đợi cả hai phương pháp đều dẫn đến cùng một chính sách - hoặc ít nhất là tương đương - chính sách tối ưu.
Tuy nhiên, họ thực sự khác nhau trong nội bộ. Sự khác biệt cơ bản nhất giữa các cách tiếp cận là cách chúng tiếp cận lựa chọn hành động, cả trong khi học và là đầu ra (chính sách đã học). Trong Q-learning, mục tiêu là học một hành động xác định duy nhất từ một tập hợp hành động riêng biệt bằng cách tìm giá trị tối đa. Với độ dốc chính sách và các tìm kiếm chính sách trực tiếp khác, mục tiêu là tìm hiểu bản đồ từ trạng thái đến hành động, có thể ngẫu nhiên và hoạt động trong không gian hành động liên tục.
Do đó, các phương thức gradient chính sách có thể giải quyết các vấn đề mà các phương thức dựa trên giá trị không thể:
Không gian hành động lớn và liên tục. Tuy nhiên, với các phương pháp dựa trên giá trị, điều này vẫn có thể được tính gần đúng với sự rời rạc - và đây không phải là một lựa chọn tồi, vì hàm ánh xạ trong gradient chính sách phải là một loại xấp xỉ trong thực tế.
Chính sách ngẫu nhiên. Phương pháp dựa trên giá trị không thể giải quyết một môi trường trong đó chính sách tối ưu là ngẫu nhiên đòi hỏi xác suất cụ thể, chẳng hạn như Scissor / Paper / Stone. Đó là bởi vì không có tham số có thể huấn luyện trong Q-learning kiểm soát xác suất hành động, việc xây dựng vấn đề trong học tập TD giả định rằng một tác nhân xác định có thể là tối ưu.
Tuy nhiên, các phương pháp dựa trên giá trị như Q-learning cũng có một số lợi thế:
p ( a ∣ s , θ )θ
Tốc độ. Các phương pháp học TD mà bootstrap thường học chính sách nhanh hơn nhiều so với các phương pháp phải hoàn toàn lấy mẫu từ môi trường để đánh giá tiến trình.
Có những lý do khác khiến bạn có thể quan tâm đến việc sử dụng một hoặc một phương pháp khác:
Bạn có thể muốn biết lợi nhuận dự đoán trong khi quy trình đang chạy, để giúp các quy trình lập kế hoạch khác liên quan đến đại lý.
Đại diện trạng thái của vấn đề cho vay dễ dàng hơn cho hàm giá trị hoặc hàm chính sách. Hàm giá trị có thể có mối quan hệ rất đơn giản với trạng thái và hàm chính sách rất phức tạp và khó học, hoặc ngược lại .
Một số người giải quyết RL hiện đại thực sự sử dụng cả hai cách tiếp cận với nhau, chẳng hạn như Actor-Critic. Điều này kết hợp các điểm mạnh của giá trị và phương pháp gradient chính sách.