sau khi thực hiện lựa chọn từng bước dựa trên tiêu chí AIC, việc xem xét các giá trị p để kiểm tra giả thuyết null rằng mỗi hệ số hồi quy thực bằng 0 là sai lầm.
Thật vậy, giá trị p đại diện cho xác suất nhìn thấy một thống kê kiểm tra ít nhất là cực đoan như bạn có, khi giả thuyết null là đúng. Nếu là đúng, giá trị p sẽ có phân phối đồng đều.H0
Nhưng sau khi lựa chọn từng bước (hoặc thực tế, sau một loạt các cách tiếp cận khác để lựa chọn mô hình), giá trị p của các thuật ngữ còn lại trong mô hình không có thuộc tính đó, ngay cả khi chúng ta biết rằng giả thuyết null là đúng.
Điều này xảy ra bởi vì chúng tôi chọn các biến có hoặc có xu hướng có giá trị p nhỏ (tùy thuộc vào tiêu chí chính xác mà chúng tôi đã sử dụng). Điều này có nghĩa là giá trị p của các biến còn lại trong mô hình thường nhỏ hơn nhiều so với giá trị nếu chúng ta lắp một mô hình. Lưu ý rằng lựa chọn sẽ ở mức trung bình các mô hình chọn có vẻ phù hợp thậm chí tốt hơn mô hình thực, nếu lớp mô hình bao gồm mô hình thực hoặc nếu lớp mô hình đủ linh hoạt để gần đúng mô hình thực.
[Ngoài ra và về cơ bản cùng một lý do, các hệ số còn lại bị sai lệch so với 0 và sai số chuẩn của chúng bị sai lệch thấp; điều này cũng ảnh hưởng đến khoảng tin cậy và dự đoán - ví dụ dự đoán của chúng tôi sẽ quá hẹp.]
Để xem các hiệu ứng này, chúng ta có thể thực hiện nhiều hồi quy trong đó một số hệ số bằng 0 và một số thì không, thực hiện quy trình từng bước và sau đó cho các mô hình có chứa các biến có hệ số bằng 0, hãy xem các giá trị p có kết quả.
(Trong cùng một mô phỏng, bạn có thể xem các ước tính và độ lệch chuẩn cho các hệ số và khám phá các hệ số tương ứng với các hệ số khác không cũng bị ảnh hưởng.)
Nói tóm lại, không phù hợp để coi các giá trị p thông thường là có ý nghĩa.
Tôi nghe nói rằng người ta nên coi tất cả các biến còn lại trong mô hình là quan trọng thay thế.
Về việc liệu tất cả các giá trị trong mô hình sau từng bước có nên được coi là "đáng kể" hay không, tôi không chắc mức độ đó là cách hữu ích để xem xét nó. "Ý nghĩa" dự định sau đó là gì?
Đây là kết quả của việc chạy R stepAIC
với cài đặt mặc định trên 1000 mẫu mô phỏng với n = 100 và mười biến số ứng cử viên (không có biến nào liên quan đến phản hồi). Trong mỗi trường hợp, số lượng thuật ngữ còn lại trong mô hình đã được tính:
Chỉ 15,5% thời gian là mô hình chính xác được chọn; phần còn lại của thời gian mô hình bao gồm các thuật ngữ không khác 0. Nếu thực sự có thể có các biến hệ số bằng 0 trong tập hợp các biến số ứng cử viên, thì chúng ta có thể có một số thuật ngữ trong đó hệ số thực bằng 0 trong mô hình của chúng tôi. Kết quả là, không rõ ràng nên coi tất cả chúng là khác không.