Gần đây tôi đã đọc rất nhiều trên trang web này (@Aniko, @Dikran Marsupial, @Erik) và những nơi khác về vấn đề quá mức xảy ra với xác nhận chéo - (Smialowski et al 2010 Bioinformatics, Hastie, Các yếu tố của học thống kê). Gợi ý là mọi lựa chọn tính năng được giám sát (sử dụng tương quan với nhãn lớp) được thực hiện bên ngoài ước tính hiệu suất mô hình bằng cách sử dụng xác thực chéo (hoặc phương pháp ước tính mô hình khác như bootstrapping) có thể dẫn đến quá mức.
Điều này có vẻ không trực quan với tôi - chắc chắn nếu bạn chọn một bộ tính năng và sau đó đánh giá mô hình của bạn chỉ sử dụng các tính năng được chọn bằng xác thực chéo, thì bạn sẽ có được ước tính không thiên vị về hiệu suất mô hình tổng quát trên các tính năng đó (điều này giả sử mẫu được nghiên cứu là đại diện của dân chúng)?
Với thủ tục này, tất nhiên người ta không thể yêu cầu một bộ tính năng tối ưu nhưng người ta có thể báo cáo hiệu suất của bộ tính năng được chọn trên dữ liệu chưa xem là hợp lệ không?
Tôi chấp nhận rằng việc chọn các tính năng dựa trên toàn bộ tập dữ liệu có thể khởi động lại trong một số rò rỉ dữ liệu giữa các tập kiểm tra và tập huấn. Nhưng nếu bộ tính năng là tĩnh sau khi chọn ban đầu và không có điều chỉnh nào khác được thực hiện, chắc chắn có hợp lệ để báo cáo các số liệu hiệu suất được xác thực chéo không?
Trong trường hợp của tôi, tôi có 56 tính năng và 259 trường hợp và vì vậy #case> #features. Các tính năng được lấy từ dữ liệu cảm biến.
Xin lỗi nếu câu hỏi của tôi có vẻ phái sinh nhưng đây có vẻ là một điểm quan trọng để làm rõ.
Chỉnh sửa: Khi triển khai lựa chọn tính năng trong xác thực chéo trên tập dữ liệu được nêu chi tiết ở trên (nhờ các câu trả lời bên dưới), tôi có thể xác nhận rằng việc chọn các tính năng trước khi xác thực chéo trong bộ dữ liệu này đã giới thiệu đáng kểThiên kiến. Sự thiên vị / quá mức này là lớn nhất khi làm như vậy đối với công thức 3 lớp, so với công thức 2 lớp. Tôi nghĩ rằng thực tế là tôi đã sử dụng hồi quy từng bước cho lựa chọn tính năng đã làm tăng mức quá mức này; với mục đích so sánh, trên một tập dữ liệu khác nhưng có liên quan, tôi đã so sánh một thói quen lựa chọn tính năng chuyển tiếp liên tục được thực hiện trước khi xác thực chéo với kết quả mà tôi đã đạt được trước đó với lựa chọn tính năng trong CV. Kết quả giữa cả hai phương pháp không khác nhau đáng kể. Điều này có thể có nghĩa là hồi quy từng bước có xu hướng bị quá mức hơn so với FS tuần tự hoặc có thể là một sự khập khiễng của bộ dữ liệu này.