Có thực sự tốt để thực hiện lựa chọn tính năng không giám sát trước khi xác thực chéo?


9

Trong các yếu tố của học thống kê , tôi đã tìm thấy tuyên bố sau:

Có một điều kiện: các bước sàng lọc không giám sát ban đầu có thể được thực hiện trước khi các mẫu bị bỏ đi. Ví dụ: chúng ta có thể chọn 1000 dự đoán có phương sai cao nhất trong tất cả 50 mẫu, trước khi bắt đầu xác thực chéo. Vì quá trình lọc này không liên quan đến các nhãn lớp, nó không mang lại cho các yếu tố dự đoán một lợi thế không công bằng.

Điều này có thực sự hợp lệ không? Ý tôi là, bằng cách lọc các thuộc tính trước, chúng tôi không bắt chước dữ liệu huấn luyện / môi trường dữ liệu mới - vì vậy vấn đề này mà bộ lọc chúng tôi đang thực hiện không được giám sát? Có thực sự tốt hơn không khi thực hiện tất cả các bước tiền xử lý trong quy trình xác thực chéo? Nếu đó không phải là trường hợp, thì điều đó có nghĩa là tất cả các quá trình tiền xử lý không được giám sát đều có thể được thực hiện trước đó, bao gồm cả chuẩn hóa tính năng / PCA, v.v. Nhưng bằng cách thực hiện những điều này trên toàn bộ tập huấn luyện, chúng tôi thực sự đã rò rỉ một số dữ liệu vào tập huấn luyện. Tôi có thể đồng ý rằng với bộ dữ liệu tương đối ổn định, những khác biệt này rất có thể sẽ rất nhỏ - nhưng điều đó không có nghĩa là chúng không tồn tại, phải không? Cách chính xác để nghĩ về điều này là gì?

Câu trả lời:


2

Là một giai đoạn được thực hiện trước khi xác thực chéo, lựa chọn tính năng không giám sát có phần giống với chuẩn hóa tính năng:

  1. Từ quan điểm của một nếp gấp cụ thể trong xác nhận chéo, dữ liệu tàu đã nhìn trộm dữ liệu thử nghiệm (mặc dù chỉ trong các biến độc lập).

  2. Nhìn trộm này là tương đối nhẹ.

Chuẩn hóa tính năng trước khi xác nhận chéo đã được thảo luận trong câu hỏi này . Trích dẫn câu trả lời ở đó bởi Dikran Marsupial

Xác thực chéo được xem tốt nhất là một phương pháp để ước tính hiệu suất của một quy trình thống kê, chứ không phải là một mô hình thống kê. Do đó, để có được ước tính hiệu suất không thiên vị, bạn cần lặp lại từng yếu tố của quy trình đó một cách riêng biệt trong mỗi lần xác thực chéo, bao gồm cả chuẩn hóa.

Vì vậy, nếu bạn có thể tiết kiệm tài nguyên, điều tốt nhất là mỗi lần xác thực chéo sẽ thực hiện bất kỳ xử lý phụ thuộc dữ liệu nào từ đầu.

y


Chà, về cơ bản là trùng với suy nghĩ của tôi, và câu cuối cùng ở đây thực sự là câu trả lời ngắn gọn cho câu hỏi của tôi. Cảm ơn, tôi sẽ làm cho điều này một câu trả lời được chấp nhận.
Matek

1
Hiệu quả có thể nhỏ, nhưng nó có thể không được nhỏ. Như bạn nói, nó giống như mở rộng trước các biến độc lập của bạn trước CV, sẽ sử dụng "tương lai" (dữ liệu thử nghiệm) để giúp mở rộng "hiện tại" (dữ liệu đào tạo), điều sẽ không xảy ra trong thế giới thực. Nếu bạn có các nếp gấp ngẫu nhiên (không sử dụng chuỗi thời gian, phân tầng, v.v.) thì sẽ ít ảnh hưởng hơn, nhưng tại sao lại phá vỡ rào cản Train / Test và tất cả?
Wayne

@Wayne Tôi chắc chắn đồng ý với bạn rằng bất cứ khi nào có thể, tốt nhất là không phá vỡ rào cản tàu / thử nghiệm. Cá nhân tôi chưa bao giờ gặp phải các trường hợp trong thế giới thực khi điều này tạo ra sự khác biệt (viết tắt FS và / hoặc bình thường hóa), nhưng tôi đã gặp các trường hợp hoàn toàn không thể thực hiện lựa chọn tính năng "đúng cách" (nghĩa là trong mỗi gập lại). Tuy nhiên, tôi thấy từ câu trả lời tốt của bạn (mà tôi nêu lên) rằng bạn đã gặp trường hợp ngược lại, vì vậy rõ ràng cả hai kịch bản đều tồn tại.
Ami Tavory

Tôi không chắc chắn rằng tôi đã gặp kết quả CV trong đó việc chuẩn hóa cũng tạo ra sự khác biệt, điều mà tôi cho là thường làm CV 10 lần, điều đó có nghĩa là lần kiểm tra chỉ là 10%, khiến hiệu ứng của nó nhỏ hơn. Tôi đã thấy một sự khác biệt với một cái gì đó giống như một sự phân chia không phải là CV / 67 hoặc thậm chí là 75/25.
Wayne

9

Tôi xin khác biệt trong câu hỏi này với ý kiến ​​của @ AmiTavory cũng như với các yếu tố của học thống kê.

Đến từ một lĩnh vực ứng dụng với kích thước mẫu rất thấp, tôi có kinh nghiệm rằng các bước tiền xử lý không giám sát cũng có thể đưa ra sai lệch nghiêm trọng.

Trong lĩnh vực của tôi, đó sẽ là PCA thường xuyên nhất để giảm kích thước trước khi phân loại được đào tạo. Mặc dù tôi không thể hiển thị dữ liệu ở đây, tôi đã thấy PCA + (LDA được xác thực chéo) so với xác thực chéo (PCA + LDA) đánh giá thấp tỷ lệ lỗi theo một mức độ lớn . (Đây thường là một chỉ báo cho thấy PCA không ổn định.)

Đối với lập luận "lợi thế không công bằng" của các yếu tố, nếu kiểm tra phương sai của các trường hợp thử nghiệm +, chúng tôi kết thúc với các tính năng hoạt động tốt với cả trường hợp đào tạo và kiểm tra. Do đó, chúng tôi tạo ra một lời tiên tri tự hoàn thành ở đây, đó là nguyên nhân của sự thiên vị quá mức. Độ lệch này thấp nếu bạn có cỡ mẫu khá thoải mái.

Vì vậy, tôi đề xuất một cách tiếp cận hơi bảo thủ hơn các yếu tố:

  • tính toán tiền xử lý xem xét nhiều hơn một trường hợp cần được đưa vào xác thực: tức là chúng chỉ được tính trên tập huấn luyện tương ứng (và sau đó được áp dụng cho dữ liệu thử nghiệm)
  • Các bước tiền xử lý xem xét từng trường hợp riêng (Tôi là nhà quang phổ học: các ví dụ sẽ là hiệu chỉnh cơ sở và chuẩn hóa cường độ, là chuẩn hóa theo hàng) có thể được rút ra khỏi xác nhận chéo miễn là trước bước đầu tiên tính toán cho nhiều trường hợp.

Điều đó đang được nói, việc định giá chéo cũng chỉ là một cách rút gọn để thực hiện một nghiên cứu xác nhận hợp lệ. Vì vậy, bạn có thể tranh luận với thực tiễn:

  • Bạn có thể kiểm tra xem việc xử lý trước trong câu hỏi có mang lại kết quả ổn định hay không (bạn có thể làm điều đó, ví dụ bằng cách xác thực chéo). Nếu bạn thấy nó hoàn toàn ổn định với kích thước mẫu thấp hơn, IMHO bạn có thể lập luận rằng sẽ không có nhiều sai lệch sẽ được đưa ra bằng cách kéo nó ra khỏi xác nhận chéo.

  • Tuy nhiên, để trích dẫn một giám sát viên trước: Thời gian tính toán là không có lý lẽ khoa học.
    Tôi thường đi "xem trước lén" vài lần và vài lần lặp để xác thực chéo để đảm bảo tất cả mã (bao gồm cả tóm tắt / biểu đồ kết quả) và sau đó để lại qua đêm hoặc cuối tuần hoặc trên máy chủ cho một xác nhận chéo hạt mịn hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.