Chuẩn hóa trước khi xác thực chéo


16

Việc chuẩn hóa dữ liệu (để có độ lệch chuẩn trung bình và độ lệch chuẩn) bằng 0 trước khi thực hiện xác thực chéo k-lặp lại có bất kỳ sự chinh phục tiêu cực nào như quá mức không?

Lưu ý: đây là tình huống trong đó #case> tổng #features

Tôi đang chuyển đổi một số dữ liệu của mình bằng cách sử dụng chuyển đổi nhật ký, sau đó bình thường hóa tất cả dữ liệu như trên. Tôi sau đó thực hiện lựa chọn tính năng. Tiếp theo, tôi áp dụng các tính năng đã chọn và dữ liệu chuẩn hóa cho xác thực chéo 10 lần lặp lại để thử và ước tính hiệu suất phân loại tổng quát và lo ngại rằng sử dụng tất cả dữ liệu để chuẩn hóa có thể không phù hợp. Tôi có nên bình thường hóa dữ liệu thử nghiệm cho mỗi lần sử dụng dữ liệu chuẩn hóa thu được từ dữ liệu huấn luyện cho lần đó không?

Mọi ý kiến ​​đều biết ơn! Xin lỗi nếu câu hỏi này có vẻ rõ ràng.

Chỉnh sửa: Khi kiểm tra điều này (phù hợp với các đề xuất bên dưới) Tôi thấy rằng việc chuẩn hóa trước CV không tạo ra nhiều khác biệt về hiệu suất khi so sánh với chuẩn hóa trong CV.

Câu trả lời:


13

Để trả lời câu hỏi chính của bạn, nó sẽ là tối ưu và phù hợp hơn để mở rộng quy mô trong CV. Nhưng nó có thể sẽ không quan trọng lắm và có thể không quan trọng trong thực tế nếu bộ phân loại của bạn lưu lại dữ liệu, điều mà hầu hết làm (ít nhất là trong R).

Tuy nhiên, việc chọn tính năng trước khi xác thực chéo là KHÔNG CÓ LỚN và sẽ dẫn đến tình trạng thừa, vì bạn sẽ chọn chúng dựa trên cách chúng thực hiện trên toàn bộ tập dữ liệu. Chuyển đổi nhật ký có thể thực hiện bên ngoài, vì chuyển đổi không phụ thuộc vào dữ liệu thực tế (nhiều hơn về loại dữ liệu) và không phải là điều bạn sẽ không làm nếu bạn chỉ có 90% dữ liệu thay vì 100% và không được điều chỉnh theo dữ liệu.

Để trả lời bình luận của bạn, rõ ràng liệu nó có dẫn đến việc quá mức hay không sẽ phụ thuộc vào cách lựa chọn tính năng của bạn. Nếu bạn chọn chúng một cách tình cờ (tại sao bạn lại làm thế?) Hoặc vì những cân nhắc lý thuyết tiên nghiệm (tài liệu khác) thì sẽ không thành vấn đề. Nhưng nếu nó phụ thuộc vào dữ liệu của bạn, nó sẽ. Các yếu tố của học thống kê có một lời giải thích tốt. Bạn có thể tải xuống một cách hợp pháp và hợp pháp một .pdf tại đây http://www-stat.stanford.edu/~tibs/ElemStatLearn/

Điểm liên quan đến bạn là trong phần 7.10.2 trên trang 245 của lần in thứ năm. Nó có tiêu đề "Sai và đúng cách để xác thực chéo".


Cảm ơn - chắc chắn nếu các kết quả duy nhất được báo cáo là cho hiệu suất ước tính thu được bằng cách sử dụng mô hình (tính năng) đã chọn trong mỗi lần, điều này có thể dẫn đến quá mức? Sau đó, bạn chỉ báo cáo hiệu suất tổng quát của một tập hợp tính năng nhất định.
BGreene

Tôi mở rộng câu trả lời của tôi để nhấn vào bình luận của bạn. Tôi nghĩ rằng lời giải thích trong liên kết là tốt hơn những gì tôi có thể nấu ngay bây giờ.
Erik

Cảm ơn bạn. Điều này cho thấy rằng không nên sử dụng lựa chọn tính năng dựa trên bộ lọc tiêu chuẩn và lựa chọn tính năng dựa trên trình bao bọc hoặc tương đương được sử dụng thay thế. Điều này có còn đúng với tình huống #Case> #Features không? (Tôi có 259 trường hợp, tổng cộng 56 tính năng). Tôi sẽ giả sử tiềm năng lỗi là ít ở đây?
BGreene

4

Xác thực chéo được xem tốt nhất là một phương pháp để ước tính hiệu suất của một quy trình thống kê, chứ không phải là một mô hình thống kê. Do đó, để có được ước tính hiệu suất không thiên vị, bạn cần lặp lại từng yếu tố của quy trình đó một cách riêng biệt trong mỗi lần xác thực chéo, bao gồm cả chuẩn hóa. Vì vậy, tôi sẽ nói bình thường hóa trong mỗi lần.

Lần duy nhất điều này sẽ không cần thiết là nếu quy trình thống kê hoàn toàn không nhạy cảm với tỷ lệ và giá trị trung bình của dữ liệu.


Tôi nghĩ rằng đây là một câu trả lời tốt, mặc dù nó không nghiêm ngặt, nhưng nó được điểm. Tôi nghĩ rằng ý nghĩa là nếu bạn bình thường hóa trong mỗi lần, nó được đảm bảo rằng việc chuẩn hóa không thực hiện sai lệch. Cách nó được viết dường như không có cách nào khác để tránh sự thiên vị, mặc dù Dikran đã chỉ ra ở dòng cuối cùng rằng có những cách khác. Nếu bạn thực hiện chuẩn hóa bên trong CV, nó không bao giờ làm tăng sự thiên vị, trái ngược với việc thực hiện bên ngoài, điều này có thể. Sự thiên vị có thể không ảnh hưởng nhiều dù sao, như được chỉ ra trong câu trả lời khác.
Tom Anderson

1

Tôi nghĩ rằng nếu việc chuẩn hóa chỉ liên quan đến hai tham số và bạn có một mẫu kích thước tốt sẽ không thành vấn đề. Tôi sẽ quan tâm nhiều hơn về việc chuyển đổi và quá trình lựa chọn biến. Xác nhận chéo 10 lần dường như là cơn thịnh nộ ngày nay. Không ai sử dụng bootstrap 632 hoặc 632+ để ước tính tỷ lệ lỗi phân loại như được đề xuất trước tiên bởi Efron (1983) trong JASA và tiếp theo sau đó trong bài báo của Efron và Tibshirani với 632+?


0

Cá nhân tôi thích phương pháp .632. Đó là cơ bản tăng cường với thay thế. Nếu bạn làm điều đó và loại bỏ các bản sao, bạn sẽ nhận được 632 mục trong bộ đầu vào 1000. Loại gọn gàng.


Công cụ ước tính 632 khác với những gì bạn nói. Nó thực sự là một sự kết hợp tuyến tính của hai công cụ ước tính tỷ lệ lỗi cho trọng số 0,632 cho bootstrape0công cụ ước tính và 0,368 đến tỷ lệ lỗi rõ ràng (còn được gọi là ước tính tái lập).
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.