Tôi có một câu hỏi liên quan đến phương pháp phê bình diễn viên trong học tập củng cố.
Trong các slide này ( https://hadovanhasselt.files.wordpress.com/2016/01/pg1.pdf ) các loại khác nhau của các nhà phê bình diễn viên được giải thích. Nhà phê bình diễn viên lợi thế và nhà phê bình diễn viên TD được đề cập trong slide cuối cùng:
Nhưng khi tôi nhìn vào slide "Ước tính hàm lợi thế (2)", người ta nói rằng hàm lợi thế có thể được xấp xỉ bởi lỗi td. Sau đó, quy tắc cập nhật bao gồm lỗi td giống như trong phê bình diễn viên TD.
Vì vậy, là nhà phê bình diễn viên lợi thế và nhà phê bình diễn viên td thực sự giống nhau? Hay là có một sự khác biệt mà tôi không thấy?