Trong các yếu tố của học thống kê , tôi đã tìm thấy tuyên bố sau:
Có một điều kiện: các bước sàng lọc không giám sát ban đầu có thể được thực hiện trước khi các mẫu bị bỏ đi. Ví dụ: chúng ta có thể chọn 1000 dự đoán có phương sai cao nhất trong tất cả 50 mẫu, trước khi bắt đầu xác thực chéo. Vì quá trình lọc này không liên quan đến các nhãn lớp, nó không mang lại cho các yếu tố dự đoán một lợi thế không công bằng.
Điều này có thực sự hợp lệ không? Ý tôi là, bằng cách lọc các thuộc tính trước, chúng tôi không bắt chước dữ liệu huấn luyện / môi trường dữ liệu mới - vì vậy vấn đề này mà bộ lọc chúng tôi đang thực hiện không được giám sát? Có thực sự tốt hơn không khi thực hiện tất cả các bước tiền xử lý trong quy trình xác thực chéo? Nếu đó không phải là trường hợp, thì điều đó có nghĩa là tất cả các quá trình tiền xử lý không được giám sát đều có thể được thực hiện trước đó, bao gồm cả chuẩn hóa tính năng / PCA, v.v. Nhưng bằng cách thực hiện những điều này trên toàn bộ tập huấn luyện, chúng tôi thực sự đã rò rỉ một số dữ liệu vào tập huấn luyện. Tôi có thể đồng ý rằng với bộ dữ liệu tương đối ổn định, những khác biệt này rất có thể sẽ rất nhỏ - nhưng điều đó không có nghĩa là chúng không tồn tại, phải không? Cách chính xác để nghĩ về điều này là gì?