Các mối tương quan giữa các biến độc lập là gì? Điều này ít quan trọng hơn đối với dự đoán thuần túy, nhưng nếu bạn muốn có được một số thông tin suy luận, điều quan trọng là các biến độc lập phải khá không tương quan. Thông thường, khi bạn sử dụng hồi quy logistic trong cài đặt doanh nghiệp, cả thông tin suy luận về các biến được sử dụng cùng với dự đoán tốt là những gì các bên liên quan đang tìm kiếm.
Ngoài ra, một lý do chính đáng khác để loại bỏ các biến là cho mô hình phân tích. Một số lý do cho việc này là vì mục đích xem xét nội bộ, quy định pháp lý và dễ thực hiện. Những điều này dẫn đến việc rất mong muốn tìm ra tập hợp các biến nhỏ nhất cung cấp thông tin kinh doanh tốt và dự đoán tốt. Ví dụ: nếu bạn đang phát triển mô hình tín dụng, mọi biến đều phải được xem xét pháp lý, mọi biến phải có sẵn và trả lại ngay các giá trị khi được gọi để ghi điểm cho vay và các bên liên quan (thường không thành thạo trong xây dựng mô hình) có xu hướng không muốn nhìn vào các mô hình phức tạp được tải với các biến.
Cũng có thể hữu ích khi thử một khu rừng ngẫu nhiên để có được một số ý tưởng về tầm quan trọng của biến và cũng để kiểm tra khả năng dự đoán có và không có tất cả các biến.
Cuối cùng, bạn nên có một lý do chính đáng để chuyển đổi một biến. Ném mọi biến đổi vào một biến cho đến khi bạn tìm thấy một biến mang lại cho bạn kết quả bạn muốn là một cách tốt để có được một mô hình overfit hoạt động kém trên dữ liệu mới.