Cho đến nay, tôi đã loại bỏ các biến cộng tuyến như là một phần của quá trình chuẩn bị dữ liệu bằng cách xem xét các bảng tương quan và loại bỏ các biến nằm trên một ngưỡng nhất định. Có cách nào được chấp nhận hơn để làm điều này? Ngoài ra, tôi biết rằng chỉ nhìn vào tương quan giữa 2 biến tại một thời điểm là không lý tưởng, các phép đo như VIF có tính đến tương quan tiềm năng qua một số biến. Làm thế nào một người đi về việc lựa chọn một cách có hệ thống các kết hợp biến không thể hiện tính đa hình?
Tôi có dữ liệu của mình trong khung dữ liệu gấu trúc và đang sử dụng các mô hình của sklearn.