Trong học tập củng cố, một chính sách luôn luôn mang tính quyết định, hay nó là một phân phối xác suất qua các hành động (từ đó chúng ta lấy mẫu)? Nếu chính sách này là xác định, tại sao không phải là chức năng giá trị, được quy định tại một nhà nước đưa ra cho một cho chính sách như sau
một điểm đầu ra?
Trong định nghĩa trên, chúng tôi có một kỳ vọng. Kỳ vọng này là gì?
Một chính sách có thể dẫn đến các tuyến đường khác nhau?