Tôi đã đọc vô số bài đăng trên trang web này cực kỳ chống lại việc sử dụng các biến số theo từng bước bằng cách sử dụng bất kỳ tiêu chí nào cho dù đó là giá trị p, AIC, BIC, v.v.
Tôi hiểu tại sao các thủ tục này nói chung, khá kém cho việc lựa chọn các biến. bài viết nổi tiếng của gung ở đây minh họa rõ ràng tại sao; cuối cùng, chúng tôi đang xác minh một giả thuyết trên cùng một tập dữ liệu mà chúng tôi đã sử dụng để đưa ra giả thuyết, đó chỉ là việc nạo vét dữ liệu. Hơn nữa, giá trị p bị ảnh hưởng bởi các đại lượng như cộng tuyến và ngoại lệ, làm cho kết quả bị lệch nhiều, v.v.
Tuy nhiên, gần đây tôi đã nghiên cứu dự báo chuỗi thời gian khá lâu và tình cờ thấy sách giáo khoa được kính trọng của Hyndman, trong đó ông đề cập ở đây việc sử dụng lựa chọn từng bước để tìm ra thứ tự tối ưu của các mô hình ARIMA nói riêng. Trong thực tế, trong forecast
gói trong R, thuật toán nổi tiếng được biết đến auto.arima
theo mặc định sử dụng lựa chọn từng bước (với AIC, không phải giá trị p). Ông cũng chỉ trích lựa chọn tính năng dựa trên giá trị p phù hợp với nhiều bài đăng trên trang web này.
Cuối cùng, chúng ta nên luôn luôn xác nhận chéo theo một cách nào đó vào cuối nếu mục tiêu là phát triển các mô hình tốt để dự báo / dự đoán. Tuy nhiên, chắc chắn đây là một phần của sự bất đồng ở đây khi nói đến chính quy trình đánh giá các số liệu khác với giá trị p.
Có ai có bất kỳ ý kiến nào về việc sử dụng AIC từng bước trong bối cảnh này, nhưng cũng nói chung ngoài bối cảnh này không? Tôi đã được dạy để tin rằng bất kỳ lựa chọn từng bước là kém, nhưng thành thật mà nói, auto.arima(stepwise = TRUE)
đã cho tôi kết quả mẫu tốt hơn auto.arima(stepwise = FALSE)
nhưng có lẽ đây chỉ là sự trùng hợp.