Trí tuệ nhân tạo policy-gradients

Mối quan hệ giữa phương pháp học tập chính sách và độ dốc chính sách là gì?

Theo tôi hiểu, Q-learning và độ dốc chính sách (PG) là hai phương pháp chính được sử dụng để giải quyết các vấn đề RL. Trong khi Q-learning nhằm mục đích dự đoán phần thưởng của một hành động nhất định được thực hiện ở một trạng thái nhất định, …

20 reinforcement-learning q-learning policy-gradients comparison

Câu hỏi được gắn thẻ «policy-gradients»