Từ những gì tôi hiểu, lựa chọn biến dựa trên giá trị p (ít nhất là trong bối cảnh hồi quy) rất thiếu sót. Có vẻ như lựa chọn biến dựa trên AIC (hoặc tương tự) cũng bị một số người coi là thiếu sót, vì lý do tương tự, mặc dù điều này có vẻ không rõ ràng (ví dụ: xem câu hỏi của tôi và một số liên kết về chủ đề này ở đây: "Lựa chọn mô hình từng bước" chính xác là gì? ).
Nhưng giả sử bạn sử dụng một trong hai phương pháp này để chọn bộ dự đoán tốt nhất trong mô hình của mình.
Burnham và Anderson 2002 (Lựa chọn mô hình và suy luận đa mô hình: Phương pháp tiếp cận lý thuyết thông tin thực tế, trang 83) nói rằng người ta không nên kết hợp lựa chọn biến dựa trên AIC với dựa trên kiểm tra giả thuyết : không được sử dụng cùng nhau; chúng là những mô hình phân tích rất khác nhau. "
Mặt khác, Zuur et al. 2009 (Các mô hình hiệu ứng hỗn hợp có mở rộng trong sinh thái học với R, trang 541) dường như ủng hộ việc sử dụng AIC để tìm mô hình tối ưu, sau đó thực hiện "tinh chỉnh" bằng cách sử dụng thử nghiệm giả thuyết : "Nhược điểm là AIC có thể bảo thủ và bạn có thể cần phải áp dụng một số tinh chỉnh (sử dụng các thử nghiệm giả thuyết từ cách tiếp cận một) khi AIC đã chọn một mô hình tối ưu. "
Bạn có thể thấy làm thế nào điều này khiến người đọc của cả hai cuốn sách bối rối về cách tiếp cận nào để làm theo.
1) Đây có phải chỉ là những "trại" tư duy thống kê khác nhau và là một chủ đề bất đồng giữa các nhà thống kê? Có phải một trong những cách tiếp cận này chỉ đơn giản là "lỗi thời", nhưng được coi là phù hợp tại thời điểm viết? Hay chỉ là một sai lầm ngay từ đầu?
2) Liệu có một kịch bản trong đó phương pháp này sẽ phù hợp? Ví dụ, tôi đến từ một nền tảng sinh học, nơi tôi thường cố gắng xác định xem, nếu có, các biến dường như ảnh hưởng hoặc thúc đẩy phản ứng của tôi. Tôi thường có một số biến giải thích ứng viên và tôi đang cố gắng tìm ra biến nào là "quan trọng" (theo thuật ngữ tương đối). Ngoài ra, lưu ý rằng tập hợp các biến dự đoán ứng viên đã được giảm xuống thành các biến được coi là có liên quan đến sinh học, nhưng điều này vẫn có thể bao gồm 5-20 dự đoán ứng viên.