Hãy nghĩ về các tình huống sau:
- Bạn đang dạy robot chơi bóng bàn
- Bạn đang dạy một chương trình tính căn bậc hai
- Bạn đang dạy toán cho một đứa trẻ ở trường
Những tình huống này (tức là học có giám sát) và nhiều tình huống khác có một điểm chung (trong số những thứ khác): người học nhận được phần thưởng dựa trên hiệu suất của nó.
Câu hỏi của tôi là, chức năng phần thưởng nên như thế nào? Có một câu trả lời "tốt nhất", hay nó phụ thuộc vào tình huống? Nếu nó phụ thuộc vào tình huống, làm thế nào để xác định chức năng phần thưởng nào sẽ chọn?
Ví dụ: lấy ba chức năng phần thưởng sau:
- Chức năng
A
nói:- dưới một điểm nào đó, xấu hay tệ là như nhau: bạn chẳng nhận được gì
- có một sự khác biệt rõ ràng giữa gần như tốt và hoàn hảo
- Chức năng
B
nói:- bạn nhận được phần thưởng tỷ lệ thuận với hiệu suất của bạn
- Chức năng
C
nói:- nếu hiệu suất của bạn kém, không sao, bạn đã cố gắng hết sức: bạn vẫn nhận được một số phần thưởng
- không có nhiều khác biệt giữa hoàn hảo và gần như tốt
Theo trực giác, tôi nghĩ A
sẽ làm cho robot rất tập trung và tìm hiểu mô hình chính xác, nhưng trở nên ngu ngốc khi xử lý các mô hình tương tự, trong khi C
sẽ khiến nó dễ thích nghi hơn khi thay đổi với chi phí mất đi sự hoàn hảo.
Người ta cũng có thể nghĩ về các chức năng phức tạp hơn, chỉ để hiển thị nhưng ít:
Vì vậy, làm thế nào để biết chức năng nào để chọn? Là nó biết mà hành vi sẽ nổi lên từ (ít nhất) cơ bản A
, B
và C
chức năng?
Một câu hỏi phụ là điều này có khác về cơ bản đối với robot và trẻ em không?
A
, robot có thể trở nên cực kỳ giỏi trong nhiệm vụ chính xác, nhưng khủng khiếp ở những nhiệm vụ tương tự nhưng hơi khác. Đó chỉ là dự đoán của tôi.
X
mang lại cho tôi kết quả tốt nhất", ngay cả khi không hoàn toàn chính xác, sẽ đưa ra một quy tắc tuyệt vời.