Câu trả lời:
Đúng là bất kỳ vấn đề học tập có giám sát nào cũng có thể được coi là một vấn đề học tập củng cố tương đương: Hãy để các trạng thái tương ứng với dữ liệu đầu vào. Hãy để hành động tương ứng với dự đoán của đầu ra. Xác định phần thưởng là tiêu cực của chức năng mất được sử dụng cho việc học có giám sát. Tối đa hóa phần thưởng dự kiến. Ngược lại, các vấn đề học tập củng cố thường không thể được coi là các vấn đề học tập có giám sát. Vì vậy, từ quan điểm này, các vấn đề học tập có giám sát là một tập hợp con của các vấn đề học tập củng cố.
Nhưng, cố gắng giải quyết vấn đề học tập có giám sát bằng thuật toán học tăng cường chung sẽ là khá vô nghĩa; tất cả điều này là vứt bỏ cấu trúc sẽ làm cho vấn đề dễ giải quyết hơn. Nhiều vấn đề phát sinh trong học tập củng cố không liên quan đến học tập có giám sát. Và, học có giám sát có thể hưởng lợi từ các phương pháp không áp dụng trong môi trường học tập củng cố chung. Vì vậy, mặc dù có một số nguyên tắc cơ bản phổ biến và các kỹ thuật được chia sẻ giữa các lĩnh vực, người ta thường không thấy việc học có giám sát được thảo luận như một kiểu học tăng cường.
Người giới thiệu
Barto và Dietterich (2004) . Học tập củng cố và mối quan hệ của nó với học tập có giám sát.