Câu trả lời:
Bạn không muốn loại bỏ tất cả các biến tương quan. Chỉ đến khi mối tương quan mạnh đến mức họ không truyền đạt thêm thông tin. Đây vừa là chức năng của sức mạnh của mối tương quan, rốt cuộc bạn có bao nhiêu dữ liệu và liệu có sự khác biệt nhỏ nào giữa các biến tương quan cho bạn biết điều gì đó về kết quả hay không.
Hai cái đầu tiên bạn có thể nói trước khi bạn làm bất kỳ mô hình nào, cái cuối cùng thì không. Vì vậy, có thể rất hợp lý để loại bỏ các biến dựa trên sự kết hợp của hai cân nhắc đầu tiên (nghĩa là ngay cả khi các biến phụ có thể chứa một số thông tin hữu ích, bạn sẽ không thể biết được sức mạnh của mối tương quan và lượng dữ liệu bạn có) trước khi bạn thực hiện bất kỳ mô hình hóa / tính năng kỹ thuật. Điểm cuối cùng thực sự chỉ có thể được đánh giá sau khi thực hiện một số mô hình.
Thật kỳ lạ khi không ai khác đề cập đến khả năng giải thích .
Nếu tất cả những gì bạn quan tâm là hiệu suất , thì sẽ không có ý nghĩa gì khi loại bỏ hai biến tương quan, trừ khi tương quan = 1 hoặc -1, trong trường hợp đó một trong các biến là dự phòng.
Nhưng nếu lo ngại về khả năng diễn giải thì có thể có ý nghĩa để loại bỏ một trong các biến, ngay cả khi mối tương quan là nhẹ. Điều này đặc biệt đúng với các mô hình tuyến tính. Một trong những giả định của hồi quy tuyến tính là thiếu tính đa hình hoàn hảo trong các yếu tố dự đoán.
Nếu A tương quan với B, thì bạn không thể giải thích các hệ số của cả A và B. Để xem tại sao, hãy tưởng tượng trường hợp cực đoan khi A = B (tương quan hoàn hảo). Khi đó, mô hình y = 100 * A + 50 * B giống với mô hình y = 5 * A + 10 * B hoặc y = -2000 * A + 4000 * B. Có nhiều điểm cân bằng trong các giải pháp khả thi cho bài toán tối thiểu hóa bình phương nhỏ nhất do đó bạn cũng không thể "tin tưởng".
Điều tương tự có thể xảy ra với các mô hình khác. Ví dụ: nếu A rất tương quan với B, thì nếu cây quyết định chọn A nhân đôi số lần B, thì bạn không thể nói rằng A quan trọng hơn B. Nếu bạn giữ lại mô hình, điều ngược lại có thể xảy ra.
Bạn nên xem xét việc kiểm tra VIF (Yếu tố lạm phát phương sai). Hãy thử loại bỏ các tính năng với VIF cao hơn. Nói chung, VIF được ưu tiên dưới 10.
Nó không thành vấn đề. Nhưng cho hiệu quả trước khi tính năng kỹ thuật.
Xác định hiệp phương sai và thực hiện công việc ban đầu của bạn với tập cao nhất.