Tôi đang làm việc thông qua bài báo Cho 2014 giới thiệu kiến trúc bộ mã hóa-giải mã cho mô hình seq2seq.
Trong bài báo, dường như họ sử dụng xác suất của đầu ra cho đầu vào (hoặc đó là khả năng ghi nhật ký âm) làm hàm mất cho đầu vào có độ dài M và đầu ra y có độ dài N :
Tuy nhiên, tôi nghĩ rằng tôi thấy một số vấn đề với việc sử dụng chức năng này như là một chức năng mất:
- Dường như giả sử giáo viên buộc trong quá trình đào tạo (nghĩa là thay vì sử dụng dự đoán của bộ giải mã cho một vị trí làm đầu vào cho lần lặp tiếp theo, nó sử dụng mã thông báo đã biết.
- Nó sẽ không phạt các chuỗi dài. Vì xác suất là từ đến N của đầu ra, nếu bộ giải mã tạo ra một chuỗi dài hơn thì mọi thứ sau N đầu tiên sẽ không ảnh hưởng đến tổn thất.
- Nếu mô hình dự đoán mã thông báo End-of-String sớm, hàm mất vẫn yêu cầu bước - có nghĩa là chúng tôi đang tạo đầu ra dựa trên "đa tạp" của các mô hình. Điều đó có vẻ cẩu thả.
Có bất kỳ mối quan tâm trong số này là hợp lệ? Nếu vậy, đã có bất kỳ tiến triển thành một chức năng mất nâng cao hơn?