Câu hỏi được gắn thẻ «policy-gradients»

1
Mối quan hệ giữa phương pháp học tập chính sách và độ dốc chính sách là gì?
Theo tôi hiểu, Q-learning và độ dốc chính sách (PG) là hai phương pháp chính được sử dụng để giải quyết các vấn đề RL. Trong khi Q-learning nhằm mục đích dự đoán phần thưởng của một hành động nhất định được thực hiện ở một trạng thái nhất định, …
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.