Tại sao lựa chọn tính năng quan trọng, cho các nhiệm vụ phân loại?

Tôi đang tìm hiểu về lựa chọn tính năng. Tôi có thể thấy tại sao nó lại quan trọng và hữu ích cho việc xây dựng mô hình. Nhưng hãy tập trung vào các nhiệm vụ học tập (phân loại) có giám sát. Tại sao lựa chọn tính năng quan trọng, cho các nhiệm vụ phân loại?

Tôi thấy rất nhiều tài liệu viết về lựa chọn tính năng và sử dụng nó cho việc học có giám sát, nhưng điều này đánh đố tôi. Lựa chọn tính năng là về việc xác định các tính năng để vứt bỏ. Theo trực giác, vứt bỏ một số tính năng có vẻ như tự đánh bại: đó là vứt bỏ thông tin. Có vẻ như ném thông tin không nên giúp đỡ.

Và ngay cả khi loại bỏ một số tính năng có ích, nếu chúng ta bỏ đi một số tính năng và sau đó đưa phần còn lại vào thuật toán học có giám sát, tại sao chúng ta cần phải tự làm điều đó, thay vì để thuật toán học có giám sát xử lý nó? Nếu một số tính năng không hữu ích, không nên sử dụng bất kỳ thuật toán học có giám sát phù hợp nào để phát hiện ra điều đó và tìm hiểu một mô hình không sử dụng tính năng đó?

Vì vậy, theo trực giác, tôi đã dự đoán rằng lựa chọn tính năng sẽ là một bài tập vô nghĩa không bao giờ giúp đỡ và đôi khi có thể làm tổn thương. Nhưng thực tế là nó được sử dụng rộng rãi và viết về nó khiến tôi nghi ngờ rằng trực giác của tôi bị lỗi. Bất cứ ai cũng có thể cung cấp bất kỳ trực giác nào tại sao lựa chọn tính năng là hữu ích và quan trọng, khi thực hiện học tập có giám sát? Tại sao nó cải thiện hiệu suất của máy học? Có phụ thuộc vào phân loại tôi sử dụng?

feature-selection accuracy regression-strategies

— DW
nguồn

Trực giác của bạn là khá chính xác. Trong hầu hết các tình huống, lựa chọn tính năng thể hiện mong muốn giải thích đơn giản xuất phát từ ba hiểu lầm:

Nhà phân tích không nhận ra rằng tập hợp các tính năng "được chọn" là không ổn định, nghĩa là không mạnh mẽ và quá trình lựa chọn khi thực hiện trên một tập dữ liệu khác sẽ dẫn đến một bộ tính năng khá khác nhau. Dữ liệu thường không có nội dung thông tin cần thiết để chọn các tính năng "đúng". Vấn đề này trở nên tồi tệ hơn nếu có sự đồng tuyến tính.
Con đường, cơ chế và quy trình rất phức tạp trong các thí nghiệm không được kiểm soát; hành vi và bản chất của con người là phức tạp và không phức tạp.
Độ chính xác dự đoán bị tổn hại bằng cách yêu cầu dữ liệu cho bạn biết cả các tính năng quan trọng và mối quan hệ với đối với các tính năng "quan trọng" là gì. Tốt hơn là "sử dụng một chút của mỗi biến" hơn là sử dụng tất cả một số biến và không có biến nào cho các biến khác (nghĩa là sử dụng co rút / xử phạt). $Y$

Một số cách để nghiên cứu điều này:

Làm nhiều so sánh về độ chính xác dự đoán giữa lasso , lưới đàn hồi và hình phạt bậc hai tiêu chuẩn (hồi quy sườn núi)
Các biện pháp quan trọng của Bootstrap từ một khu rừng ngẫu nhiên và kiểm tra sự ổn định của chúng
Tính khoảng tin cậy của bootstrap trên các cấp bậc của các tính năng tiềm năng, ví dụ: trên các cấp bậc của một phần bài kiểm tra liên kết (hoặc của những thứ như Spearman hoặc Bolog ' ) và thấy rằng các khoảng tin cậy này rất rộng , trực tiếp thông báo cho bạn về những khó khăn của nhiệm vụ. Ghi chú khóa học của tôi được liên kết từ http://biostat.mc.vanderbilt.edu/rms có một ví dụ về thứ tự xếp hạng bootstrapping của các yếu tố dự đoán bằng OLS. $\chi^2$ $\rho$ $D_{xy}$

Tất cả điều này áp dụng cho cả phân loại và khái niệm dự đoán tổng quát và hữu ích hơn.

— Frank Mitchell
nguồn