Tôi đang cố gắng đào tạo một mạng lưới thần kinh để phân loại, nhưng các nhãn tôi có khá ồn ào (khoảng 30% nhãn là sai).
Mất mát entropy chéo thực sự hoạt động, nhưng tôi đã tự hỏi liệu có sự thay thế nào hiệu quả hơn trong trường hợp này? hoặc là mất entropy chéo là tối ưu?
Tôi không chắc nhưng tôi đang nghĩ đến việc "cắt" phần nào sự mất entropy chéo, sao cho tổn thất cho một điểm dữ liệu sẽ không lớn hơn một số giới hạn trên, điều đó có hiệu quả không?
Cảm ơn!
Cập nhật
Theo câu trả lời của Lucas, tôi đã nhận được các dẫn xuất sau cho đầu ra dự đoán và đầu vào của hàm softmax z . Vì vậy, tôi đoán về cơ bản nó đang thêm một thuật ngữ làm mịn 3 đến các dẫn xuất. pi=0,3/N+0,7yil=-Σtilog(pi)∂l
Cập nhật
Tôi tình cờ đọc được một bài báo của Google áp dụng cùng một công thức như trong câu trả lời của Lucas nhưng với những cách hiểu khác nhau.
Trong Phần 7 Chuẩn hóa mô hình thông qua làm mịn nhãn
Nhưng thay vì thêm thuật ngữ làm mịn vào các dự đoán, họ đã thêm nó vào sự thật nền tảng , hóa ra lại hữu ích.