Trong học tập củng cố, chúng tôi có một chức năng khen thưởng thông báo cho các đại lý về các hành động và trạng thái hiện tại của nó đang làm tốt như thế nào. Trong một số những gì thiết lập chung, chức năng phần thưởng là một hàm của ba biến:
- Trạng thái hiện tại
- Hành động hiện tại ở trạng thái hiện tại
- Trạng thái tiếp theo
Vì vậy, nó trông giống như:
Câu hỏi của tôi là gì (có lẽ là sự hiểu lầm của tôi), thông thường người sử dụng học tăng cường quyết định phần thưởng là gì. Ví dụ: nó chỉ định 1000 điểm để đạt được mục tiêu hoặc khẳng định -1000 điểm khi đánh sập robot tự trị. Trong các kịch bản này, tôi không rõ lý do tại sao chúng ta sẽ cần các mẫu để tìm hiểu R. R là một ưu tiên được chỉ định và sau đó chúng tôi sử dụng tác nhân của chúng tôi. Đúng? Tuy nhiên, tôi biết tôi đã sai bởi vì trong ghi chú của Andrew Ng, ông nói:
Trường hợp anh ta nói rằng chúng ta không biết rõ chức năng phần thưởng. Điều đó có vẻ kỳ quái với tôi. Tôi biết tôi đã sai và tôi yêu nếu ai đó có thể làm rõ với tôi trong những tình huống nào chúng ta thực sự phải học R từ các mẫu?
(rõ ràng, các xác suất chuyển tiếp phải được học vì người ta không biết môi trường sẽ làm cho tác nhân của chúng ta di chuyển như thế nào).