Có một loạt các vấn đề với lựa chọn từng bước. Tôi đã thảo luận từng bước trong câu trả lời của tôi ở đây: Thuật toán để lựa chọn mô hình tự động . Trong câu trả lời đó, tôi không chủ yếu tập trung vào các vấn đề với suy luận, mà trên thực tế là các hệ số bị sai lệch (các vận động viên cố gắng tương tự như các biến). Bởi vì các hệ số bị sai lệch so với giá trị thực của chúng, nên lỗi dự đoán ngoài mẫu sẽ được mở rộng, ceteris paribus.
Hãy xem xét khái niệm về sự đánh đổi sai lệch . Nếu bạn nghĩ về tính chính xác của mô hình của bạn như phương sai của sai số dự báo (ví dụ, MSE: ), sai số dự đoán sẽ là tổng của ba nguồn khác nhau của phương sai:1 / n Σ ( yTôi- y^Tôi)2
E[ (yTôi- y^Tôi)2] =Var( f^) + [ B i a s ( f^) ]2+ V a r ( ε )
Ba thuật ngữ này là phương sai của ước tính hàm của bạn, bình phương sai lệch của ước tính và lỗi không thể sửa chữa trong quá trình tạo dữ liệu, tương ứng. (Cái sau tồn tại bởi vì dữ liệu không phải là xác định, bạn sẽ không bao giờ có được dự đoán gần hơn so với trung bình.) Hai cái trước đến từ thủ tục được sử dụng để ước tính mô hình của bạn. Theo mặc định, chúng tôi có thể nghĩ rằng
OLS là thủ tục được sử dụng để ước tính mô hình, nhưng sẽ đúng hơn khi nói rằng
lựa chọn từng bước so với ước tính OLS là thủ tục. Ý tưởng của sự đánh đổi sai lệch thiên vị là trong khi một mô hình giải thích nhấn mạnh một cách đúng đắn không thiên vị, một mô hình dự đoán có thể được hưởng lợi từ việc sử dụng một thủ tục thiên vị nếu phương sai được giảm đủ (để giải thích đầy đủ hơn, xem:
Vấn đề gì làm phương pháp co ngót giải quyết? ).
Với những ý tưởng đó trong đầu, điểm của câu trả lời của tôi được liên kết ở trên cùng là rất nhiều sự thiên vị được gây ra. Tất cả mọi thứ đều bình đẳng, điều đó sẽ làm cho các dự đoán mẫu trở nên tồi tệ hơn. Thật không may, lựa chọn từng bước không làm giảm phương sai của ước tính. Tốt nhất, phương sai của nó là như nhau, nhưng nó cũng có khả năng làm cho phương sai trở nên tồi tệ hơn nhiều (ví dụ, @Glen_b chỉ báo cáo 15,5% số lần là các biến đúng được chọn trong một nghiên cứu mô phỏng được thảo luận ở đây: Tại sao giá trị p sai lệch sau khi thực hiện lựa chọn từng bước? ).