Tôi đang đào tạo một mạng lưới thần kinh để phân loại âm thanh.
Tôi đã đào tạo nó trên bộ dữ liệu UrbanSound8K (Model1) , và sau đó tôi muốn đánh giá mức độ nhiễu khác nhau đối với các đầu vào ảnh hưởng đến độ chính xác dự đoán. Độ chính xác cơ bản Model1 = 65%
Như mong đợi, mức độ tiếng ồn cao hơn dẫn đến độ chính xác thấp hơn.
Sau đó, tôi quyết định thực hiện tăng dữ liệu bằng nhiễu (Model2) . Vì vậy, tôi đã lấy tập dữ liệu và tôi đã sao chép nó với cùng một tệp nhưng thêm nhiễu hồng (+0 dB SNR) cho chúng.
Như mong đợi (theo tôi), độ chính xác tổng thể tăng (mặc dù một chút rất nhỏ, 0,5%), và mạng trở nên mạnh mẽ hơn đối với các lỗi nhiễu của đầu vào.
Tuy nhiên! Một điều mà tôi không mong đợi là bây giờ mạng đã giảm độ chính xác khi chỉ dự đoán các đầu vào không có tiếng ồn (đầu vào xác thực). Bằng cách nào đó, nó đã được trang bị quá mức cho các đầu vào sạch, do đó làm giảm độ chính xác dự đoán trên các âm thanh này.
Vì vậy, về số lượng, Model2 dự đoán với độ chính xác 69% đối với các đầu vào nhiễu (không nhất thiết phải giống với tiếng ồn đã được huấn luyện) và 47% chính xác cho các đầu vào sạch.
Có bất kỳ lời giải thích hoặc trực giác về kết quả này?
Tôi đã mong đợi rằng mạng, ngày càng có nhiều dữ liệu đào tạo đa dạng hơn, sẽ học được nhiều tính năng có ý nghĩa hơn. Tôi đoán khó khăn hơn để phù hợp với các đầu vào ồn ào, nhưng tôi vẫn không hiểu tại sao nó lại được trang bị quá mức cho các đầu vào sạch.
------------------------------------------------- BIÊN TẬP 1 ------------------------------------------------- ---------------
Một thông tin khác có thể hữu ích:
Ngay cả khi đánh giá Model2 trên các đầu vào nhiễu với rất ít nhiễu, mạng vẫn hoạt động tốt hơn so với chỉ đầu vào sạch (rất giống với đầu vào có tiếng ồn nhỏ vào tai chúng ta)