Việc chuẩn hóa dữ liệu (để có độ lệch chuẩn trung bình và độ lệch chuẩn) bằng 0 trước khi thực hiện xác thực chéo k-lặp lại có bất kỳ sự chinh phục tiêu cực nào như quá mức không?
Lưu ý: đây là tình huống trong đó #case> tổng #features
Tôi đang chuyển đổi một số dữ liệu của mình bằng cách sử dụng chuyển đổi nhật ký, sau đó bình thường hóa tất cả dữ liệu như trên. Tôi sau đó thực hiện lựa chọn tính năng. Tiếp theo, tôi áp dụng các tính năng đã chọn và dữ liệu chuẩn hóa cho xác thực chéo 10 lần lặp lại để thử và ước tính hiệu suất phân loại tổng quát và lo ngại rằng sử dụng tất cả dữ liệu để chuẩn hóa có thể không phù hợp. Tôi có nên bình thường hóa dữ liệu thử nghiệm cho mỗi lần sử dụng dữ liệu chuẩn hóa thu được từ dữ liệu huấn luyện cho lần đó không?
Mọi ý kiến đều biết ơn! Xin lỗi nếu câu hỏi này có vẻ rõ ràng.
Chỉnh sửa: Khi kiểm tra điều này (phù hợp với các đề xuất bên dưới) Tôi thấy rằng việc chuẩn hóa trước CV không tạo ra nhiều khác biệt về hiệu suất khi so sánh với chuẩn hóa trong CV.