Lựa chọn tính năng có thể được xem xét một giai đoạn để tránh. Bạn phải dành thời gian tính toán để xóa các tính năng và thực sự mất dữ liệu và các phương pháp mà bạn phải thực hiện lựa chọn tính năng không tối ưu vì vấn đề là NP-Complete . Sử dụng nó không giống như một lời đề nghị mà bạn không thể từ chối.
Vì vậy, những lợi ích của việc sử dụng nó là gì?
- Nhiều tính năng và tỷ lệ mẫu / tính năng thấp sẽ đưa tiếng ồn vào tập dữ liệu của bạn. Trong trường hợp như vậy, thuật toán phân loại của bạn có khả năng phù hợp hơn và mang lại cho bạn cảm giác sai về hiệu suất tốt.
- Giảm số lượng tính năng sẽ giảm thời gian chạy trong các giai đoạn sau. Điều đó sẽ cho phép bạn sử dụng các thuật toán có độ phức tạp cao hơn, tìm kiếm nhiều tham số siêu hơn hoặc thực hiện nhiều đánh giá hơn.
- Một bộ tính năng nhỏ hơn dễ hiểu hơn đối với con người. Điều đó sẽ cho phép bạn tập trung vào các nguồn dự đoán chính và thực hiện kỹ thuật tính năng chính xác hơn. Nếu bạn sẽ phải giải thích mô hình của mình cho khách hàng, bạn nên trình bày một mô hình có 5 tính năng hơn là một mô hình có 200 tính năng.
Bây giờ cho trường hợp cụ thể của bạn: Tôi khuyên bạn sẽ bắt đầu tính toán các mối tương quan giữa các tính năng và khái niệm. Tính toán tương quan giữa tất cả các tính năng cũng là thông tin. Lưu ý rằng có nhiều loại tương quan hữu ích (ví dụ: Pearson , Thông tin lẫn nhau ) và nhiều thuộc tính có thể ảnh hưởng đến chúng (ví dụ: độ thưa thớt, mất cân bằng khái niệm). Kiểm tra chúng thay vì mù quáng với thuật toán lựa chọn tính năng có thể giúp bạn tiết kiệm nhiều thời gian trong tương lai.
Tôi không nghĩ rằng bạn sẽ gặp nhiều vấn đề về thời gian với bộ dữ liệu của mình. Tuy nhiên, tỷ lệ mẫu / tính năng của bạn không quá cao để bạn có thể hưởng lợi từ việc lựa chọn tính năng.
Chọn một bộ phân loại có độ phức tạp thấp (ví dụ: hồi quy tuyến tính, cây quyết định nhỏ) và sử dụng nó làm điểm chuẩn. Hãy thử nó trên tập dữ liệu đầy đủ và trên một số tập dữ liệu với một tập hợp các tính năng. Một điểm chuẩn như vậy sẽ hướng dẫn bạn trong việc sử dụng lựa chọn tính năng. Bạn sẽ cần hướng dẫn như vậy vì có nhiều tùy chọn (ví dụ: số lượng tính năng cần chọn, thuật toán chọn tính năng) vì mục tiêu thường là mục đích và không phải là lựa chọn tính năng nên phản hồi cách xa ít nhất một bước.