(Giả sử bạn đang nói về việc học có giám sát)
Các tính năng tương quan sẽ không luôn làm xấu đi mô hình của bạn, nhưng chúng cũng sẽ không luôn cải thiện nó.
Có ba lý do chính khiến bạn loại bỏ các tính năng tương quan:
- Làm cho thuật toán học nhanh hơn
Do lời nguyền của chiều, ít tính năng thường có nghĩa là cải thiện cao về tốc độ.
Nếu tốc độ không phải là vấn đề, có lẽ đừng xóa các tính năng này ngay lập tức (xem điểm tiếp theo)
Các từ khóa có hại. Nếu bạn có các tính năng tương quan nhưng chúng cũng tương quan với mục tiêu, bạn muốn giữ chúng. Bạn có thể xem các tính năng dưới dạng gợi ý để đưa ra dự đoán tốt, nếu bạn có hai gợi ý về cơ bản là giống nhau, nhưng chúng là gợi ý tốt, có thể là khôn ngoan khi giữ chúng.
Một số thuật toán như Naive Bayes thực sự được hưởng lợi trực tiếp từ các tính năng tương quan "tích cực". Và những người khác như rừng ngẫu nhiên có thể gián tiếp hưởng lợi từ họ.
Hãy tưởng tượng có 3 tính năng A, B và C. A và B có mối tương quan cao với mục tiêu và với nhau, và C hoàn toàn không. Nếu bạn lấy mẫu trong số 3 tính năng, bạn có 2/3 cơ hội để có được tính năng "tốt", trong khi nếu bạn loại bỏ B chẳng hạn, cơ hội này giảm xuống còn 1/2
Tất nhiên, nếu các tính năng tương quan không phải là siêu thông tin ngay từ đầu, thuật toán có thể không bị ảnh hưởng nhiều.
Vì vậy, đạo đức của câu chuyện, loại bỏ các tính năng này có thể là cần thiết do tốc độ, nhưng hãy nhớ rằng bạn có thể làm cho thuật toán của bạn tồi tệ hơn trong quá trình. Ngoài ra, một số thuật toán như cây quyết định có lựa chọn tính năng được nhúng trong chúng.
Một cách tốt để giải quyết vấn đề này là sử dụng phương pháp trình bao bọc để lựa chọn tính năng. Nó sẽ loại bỏ các tính năng dư thừa chỉ khi chúng không đóng góp trực tiếp vào hiệu suất. Nếu chúng hữu ích như trong vịnh ngây thơ, chúng sẽ được giữ lại. (Mặc dù hãy nhớ rằng các phương thức trình bao bọc rất tốn kém và có thể dẫn đến quá mức)
- Khả năng diễn giải mô hình của bạn
Nếu mô hình của bạn cần có thể diễn giải được, bạn có thể buộc phải làm cho nó đơn giản hơn. Hãy nhớ ghi nhớ dao cạo của Occam. Nếu mô hình của bạn không "nhiều" tệ hơn với ít tính năng hơn, thì có lẽ bạn nên sử dụng ít tính năng hơn.