1
Các phương pháp gradient chính sách ngoài chính sách có tồn tại không?
Các phương pháp gradient chính sách ngoài chính sách có tồn tại không? Tôi biết rằng chính các phương thức gradient chính sách sử dụng hàm chính sách để lấy mẫu. Nhưng chúng ta có thể dễ dàng có một mô hình để lấy mẫu từ môi trường không? Nếu …