Câu hỏi được gắn thẻ «reinforcement-learning»

Đối với các câu hỏi liên quan đến việc học được kiểm soát bởi sự củng cố tích cực bên ngoài hoặc tín hiệu phản hồi tiêu cực hoặc cả hai, trong đó việc học và sử dụng những gì đã được học cho đến nay xảy ra đồng thời.


1
Mối quan hệ giữa phương pháp học tập chính sách và độ dốc chính sách là gì?
Theo tôi hiểu, Q-learning và độ dốc chính sách (PG) là hai phương pháp chính được sử dụng để giải quyết các vấn đề RL. Trong khi Q-learning nhằm mục đích dự đoán phần thưởng của một hành động nhất định được thực hiện ở một trạng thái nhất định, …


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.