Tôi đang tìm hiểu về lựa chọn tính năng. Tôi có thể thấy tại sao nó lại quan trọng và hữu ích cho việc xây dựng mô hình. Nhưng hãy tập trung vào các nhiệm vụ học tập (phân loại) có giám sát. Tại sao lựa chọn tính năng quan trọng, cho các nhiệm vụ phân loại?
Tôi thấy rất nhiều tài liệu viết về lựa chọn tính năng và sử dụng nó cho việc học có giám sát, nhưng điều này đánh đố tôi. Lựa chọn tính năng là về việc xác định các tính năng để vứt bỏ. Theo trực giác, vứt bỏ một số tính năng có vẻ như tự đánh bại: đó là vứt bỏ thông tin. Có vẻ như ném thông tin không nên giúp đỡ.
Và ngay cả khi loại bỏ một số tính năng có ích, nếu chúng ta bỏ đi một số tính năng và sau đó đưa phần còn lại vào thuật toán học có giám sát, tại sao chúng ta cần phải tự làm điều đó, thay vì để thuật toán học có giám sát xử lý nó? Nếu một số tính năng không hữu ích, không nên sử dụng bất kỳ thuật toán học có giám sát phù hợp nào để phát hiện ra điều đó và tìm hiểu một mô hình không sử dụng tính năng đó?
Vì vậy, theo trực giác, tôi đã dự đoán rằng lựa chọn tính năng sẽ là một bài tập vô nghĩa không bao giờ giúp đỡ và đôi khi có thể làm tổn thương. Nhưng thực tế là nó được sử dụng rộng rãi và viết về nó khiến tôi nghi ngờ rằng trực giác của tôi bị lỗi. Bất cứ ai cũng có thể cung cấp bất kỳ trực giác nào tại sao lựa chọn tính năng là hữu ích và quan trọng, khi thực hiện học tập có giám sát? Tại sao nó cải thiện hiệu suất của máy học? Có phụ thuộc vào phân loại tôi sử dụng?