Tại sao entropy như dẫn biện pháp lỗi để overfitting?

Bài đăng này trên KDnuggets trích dẫn bài đăng của John Langford nói rằng entropy và thông tin lẫn nhau khi được sử dụng làm biện pháp lỗi có thể dẫn đến quá mức. Bạn có thể đi vào chi tiết hơn về điều này?

— Tim
nguồn

Lưu ý rằng trong bài viết gốc của Langford, có một cuộc thảo luận bắt đầu với nhận xét của Aleks về cách các biện pháp này "dễ vỡ" (và có thể dẫn đến quá mức).

— Stephan Kolassa

@StephanKolassa tôi nhận thấy, nhưng tôi muốn được quan tâm bình luận chi tiết hơn về vấn đề này.

— Tim

Bất kỳ biện pháp lỗi nào không xử phạt sự phức tạp của hệ thống có thể dẫn đến quá mức, ví dụ như entropy.

Nói chung khi bạn phù hợp với dữ liệu huấn luyện của bạn đến một mô hình mà bạn muốn khái quát tốt với dữ liệu mới, bước đào tạo này được thực hiện bằng cách giảm thiểu một số biện pháp lỗi mà phụ thuộc, trong số nhiều thứ, trên các thông số của bạn (một vectơ bao gồm tất cả các tham số mô hình của bạn sẽ phù hợp trong quá trình đào tạo). $E (w)$ $w$

Nếu thước đo lỗi của bạn chỉ quan tâm đến việc phù hợp hơn và tốt hơn với dữ liệu đào tạo của bạn, bạn có thể thấy rằng các mô hình tòa nhà có số lượng tham số khổng lồ (về mặt quảng cáo có thể có bất kỳ giá trị nào) là tốt vì mô hình của bạn linh hoạt đến mức dữ liệu đào tạo của bạn có thể hoàn hảo đã học. Mặt khác, nếu dữ liệu đào tạo của bạn ồn ào (thường là như vậy), thì cách này sẽ làm cho mô hình của bạn phù hợp với tiếng ồn, và đây là những gì quá mức.

Có những kỹ thuật để tránh điều này, mà hoàn toàn được gọi là kỹ thuật "quy tắc", là phổ biến nhất là những người mà thêm một thuật ngữ quy tắc để hàm lỗi, vì vậy mà bây giờ nơi là một lỗi đo lường mức độ phù hợp của bạn (ví dụ: entropy) và một hình phạt cho các mô hình phức tạp (lớn hơn đối với các mô hình có nhiều tham số hoặc giá trị tham số lớn). $E (w) = E_D (w) + E_W (w)$ $E_D$ $E_W$

— Javi
nguồn

Điều này dường như không trả lời câu hỏi. John Langford đề cập đến entropy một cách rõ ràng như một biện pháp dẫn đến tình trạng thừa, ông không đề cập đến "bất kỳ biện pháp nào". Câu hỏi đặt ra là, những gì / nếu là cụ thể về entropy về overfitting?

— Tim

chính quy hóa thường không được xem xét trên các bộ kiểm tra / xác nhận, cho tất cả các biện pháp. Có vẻ như Langford đã nói về entropy và thông tin lẫn nhau nói riêng.

— carlo