Bài đăng này trên KDnuggets trích dẫn bài đăng của John Langford nói rằng entropy và thông tin lẫn nhau khi được sử dụng làm biện pháp lỗi có thể dẫn đến quá mức. Bạn có thể đi vào chi tiết hơn về điều này?
Bài đăng này trên KDnuggets trích dẫn bài đăng của John Langford nói rằng entropy và thông tin lẫn nhau khi được sử dụng làm biện pháp lỗi có thể dẫn đến quá mức. Bạn có thể đi vào chi tiết hơn về điều này?
Câu trả lời:
Bất kỳ biện pháp lỗi nào không xử phạt sự phức tạp của hệ thống có thể dẫn đến quá mức, ví dụ như entropy.
Nói chung khi bạn phù hợp với dữ liệu huấn luyện của bạn đến một mô hình mà bạn muốn khái quát tốt với dữ liệu mới, bước đào tạo này được thực hiện bằng cách giảm thiểu một số biện pháp lỗi mà phụ thuộc, trong số nhiều thứ, trên các thông số của bạn (một vectơ bao gồm tất cả các tham số mô hình của bạn sẽ phù hợp trong quá trình đào tạo).
Nếu thước đo lỗi của bạn chỉ quan tâm đến việc phù hợp hơn và tốt hơn với dữ liệu đào tạo của bạn, bạn có thể thấy rằng các mô hình tòa nhà có số lượng tham số khổng lồ (về mặt quảng cáo có thể có bất kỳ giá trị nào) là tốt vì mô hình của bạn linh hoạt đến mức dữ liệu đào tạo của bạn có thể hoàn hảo đã học. Mặt khác, nếu dữ liệu đào tạo của bạn ồn ào (thường là như vậy), thì cách này sẽ làm cho mô hình của bạn phù hợp với tiếng ồn, và đây là những gì quá mức.
Có những kỹ thuật để tránh điều này, mà hoàn toàn được gọi là kỹ thuật "quy tắc", là phổ biến nhất là những người mà thêm một thuật ngữ quy tắc để hàm lỗi, vì vậy mà bây giờ nơi là một lỗi đo lường mức độ phù hợp của bạn (ví dụ: entropy) và một hình phạt cho các mô hình phức tạp (lớn hơn đối với các mô hình có nhiều tham số hoặc giá trị tham số lớn).