Tôi hiểu rằng ngay cả khi tuân theo các quy trình lựa chọn mô hình và xác thực chéo phù hợp, việc quá mức sẽ xảy ra nếu một người tìm kiếm một mô hình đủ mạnh , trừ khi người ta áp đặt các hạn chế về độ phức tạp của mô hình, thời gian. Hơn nữa, thường thì mọi người cố gắng tìm hiểu các hình phạt về độ phức tạp của mô hình từ dữ liệu làm suy yếu sự bảo vệ mà họ có thể cung cấp.
Câu hỏi của tôi là: Có bao nhiêu sự thật cho tuyên bố trên?
Tôi thường nghe những người thực hành ML nói: " Tại công ty / phòng thí nghiệm của tôi, chúng tôi luôn thử mọi mô hình có sẵn (ví dụ từ các thư viện như caret hoặc scikit-learn ) để xem cái nào hoạt động tốt nhất ". Tôi thường lập luận rằng phương pháp này có thể dễ dàng vượt qua ngay cả khi họ nghiêm túc về việc xác nhận chéo và giữ các bộ giữ theo bất kỳ cách nào họ muốn. Hơn nữa, họ càng tìm kiếm nhiều, họ càng có khả năng phù hợp hơn. Nói cách khác, tối ưu hóa quá mức là một vấn đề thực sự và không có phương pháp phỏng đoán nào có thể giúp bạn chiến đấu chống lại nó một cách có hệ thống. Tôi có sai khi nghĩ theo cách này?