Trong chế tạo robot, kỹ thuật học tăng cường được sử dụng để tìm ra mẫu điều khiển cho robot. Thật không may, hầu hết phương pháp độ dốc chính sách đều sai lệch về mặt thống kê có thể khiến robot gặp tình huống không an toàn, xem trang 2 trong Jan Peters và Stefan Schaal: Học tăng cường kỹ năng vận động với độ dốc chính sách, 2008
Với học tập nguyên thủy của động cơ, có thể khắc phục vấn đề vì tối ưu hóa tham số độ dốc chính sách hướng các bước học tập vào mục tiêu.
quote: Triệu Nếu ước tính độ dốc không thiên vị và tỷ lệ học tập hoàn thành tổng (a) = 0 thì quá trình học được đảm bảo hội tụ đến ít nhất một mức tối thiểu cục bộ [...] Do đó, chúng tôi chỉ cần ước tính độ dốc chính sách từ dữ liệu được tạo trong quá trình thực hiện một nhiệm vụ. Tập (trang 4 của cùng một bài)
Trong bài tập về nhà cho lớp Berkeley RL Bài toán 1, nó yêu cầu bạn chỉ ra rằng độ dốc chính sách vẫn không thiên vị nếu đường cơ sở bị trừ là một hàm của trạng thái tại dấu thời gian.
Tôi đang vật lộn qua bước đầu tiên của một bằng chứng như vậy có thể là gì. Ai đó có thể chỉ cho tôi đi đúng hướng? Suy nghĩ ban đầu của tôi là bằng cách nào đó sử dụng luật tổng kỳ vọng để làm cho kỳ vọng của b (st) có điều kiện trên T, nhưng tôi không chắc chắn. Cảm ơn trước :)