Khi nào thì thích hợp để chọn các mô hình bằng cách giảm thiểu AIC?


12

Nó được thiết lập tốt, ít nhất là trong số các nhà thống kê của một số tầm cỡ cao hơn, rằng các mô hình có giá trị của thống kê AIC trong một ngưỡng nhất định của giá trị tối thiểu phải được coi là phù hợp như mô hình giảm thiểu thống kê AIC. Ví dụ: trong [1, tr.221] chúng tôi tìm thấy

Sau đó, các mô hình với GCV hoặc AIC nhỏ sẽ được coi là tốt nhất. Tất nhiên người ta không nên chỉ tối thiểu hóa GCV hoặc AIC một cách mù quáng. Thay vào đó, tất cả các mô hình có giá trị GCV hoặc AIC nhỏ hợp lý nên được coi là có khả năng phù hợp và được đánh giá theo mức độ đơn giản và phù hợp khoa học của chúng.

Tương tự, trong [2, tr.144] chúng ta có

Người ta đã đề xuất (Duong, 1984) rằng các mô hình có giá trị AIC trong c có giá trị tối thiểu phải được coi là cạnh tranh (với c = 2 là giá trị tiêu biểu). Lựa chọn trong số các mô hình cạnh tranh sau đó có thể dựa trên các yếu tố như độ trắng của phần dư (Phần 5.3) và độ đơn giản của mô hình.

Người giới thiệu:

  1. Ruppert, Đ.; Wand, MP & Carrol, Hồi quy bán đảo RJ , Nhà xuất bản Đại học Cambridge, 2003
  2. Brockwell, PJ & Davis, RA Giới thiệu về chuỗi thời gian và dự báo , John Wiley & Sons, 1996

Vì vậy, đưa ra ở trên, mô hình nào trong hai mô hình dưới đây nên được ưu tiên?

print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787:  log likelihood = -27.09,  aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975:  log likelihood = -29.38,  aic = 64.76

Tổng quát hơn, khi nào thì phù hợp để chọn mô hình bằng cách tối thiểu hóa AIC hoặc thống kê liên quan?


Bạn đã không đưa ra AIC cho một trong hai mô hình.
Peter Flom - Tái lập Monica

Tôi đã chỉ cho bạn cách lấy nó với R.
Ngủ đông

1
Các vấn đề +1 trong các mô hình ARIMA được ghi chú bên dưới. Nhưng mặt khác: "Đơn giản hóa một mô hình tiên lượng: một nghiên cứu mô phỏng dựa trên dữ liệu lâm sàng." Ambler 2002 là tài liệu tham khảo được trích dẫn nhiều nhất về điều này.
charles

Câu trả lời:


4

Diễn giải từ bài giảng của Cosma Shalizi về sự thật về Hồi quy tuyến tính , bạn sẽ không bao giờ chọn một mô hình chỉ vì nó đã giảm thiểu một thống kê như AIC , cho

Every time someone solely uses an AIC statistic for model selection, an angel loses its
wings. Every time someone thoughtlessly minimises it, an angel not only loses its wings,
but is cast out of Heaven and falls in most extreme agony into the everlasting fire.

1
Như một người Do Thái nổi tiếng đã nói: "Trí tưởng tượng tốt hơn kiến ​​thức" :)
Ngủ đông

Và, như một người ngoài Do Thái nổi tiếng đã nói "Bạn có thể thấy rất nhiều bằng cách nhìn" (Yogi Berra).
Peter Flom - Tái lập Monica

Và những gì chúng ta thấy, tất nhiên, phụ thuộc chủ yếu vào những gì chúng ta tìm kiếm. --John Lubbock
Ngủ đông

12

Tôi có thể nói rằng thường sử dụng AIC trong lựa chọn mô hình, nhưng hiếm khi sử dụng nó làm cơ sở duy nhất cho lựa chọn mô hình. Chúng ta cũng phải sử dụng kiến ​​thức thực chất.

Trong trường hợp cụ thể của bạn, bạn đang so sánh một mô hình với AR bậc 3 so với mô hình với AR bậc 1. Ngoài AIC (hoặc một cái gì đó tương tự) tôi sẽ xem xét các ô tự tương quan và tự động một phần. Tôi cũng sẽ xem xét một mô hình thứ 3 có nghĩa là gì . Liệu nó có ý nghĩa? Nó có thêm kiến ​​thức thực chất? (Hoặc, nếu bạn chỉ quan tâm đến dự đoán, nó có giúp dự đoán không?)

Tổng quát hơn, đôi khi trường hợp tìm thấy kích thước hiệu ứng rất nhỏ là thú vị.


Bạn có nói rằng bất kỳ thuật toán tốt nào để chọn mô hình arima không nên chỉ dựa trên tiêu chí AIC (hoặc tương tự) không?
Ngủ đông

Vâng, tôi đã nói rằng.
Peter Flom - Tái lập Monica

Và cuối cùng, tôi nghe thấy nó là lời tạm biệt auto.arima. Sở thích của tôi là theo một cách tiếp cận được nêu trong chương 6 của Bisgaard, S. & Kulahci, M. Phân tích và dự báo chuỗi thời gian bằng ví dụ John Wiley & Sons, Inc., 2011, thậm chí chính xác hơn trong phần 6.5 TÁC ĐỘNG CHỨC NĂNG NGHIÊN CỨU ĐỂ NGHIÊN CỨU NHỮNG KHÁC BIỆT TRONG MÔ HÌNH
Ngủ đông

1
@Hibernating: Các tác giả của auto.arima, Hyndman & Khandakar (2008) , nói: - ". Dự báo tự động của số lượng lớn các chuỗi thời gian đơn biến thường cần thiết trong kinh doanh là điều bình thường có hơn một ngàn dòng sản phẩm mà dự cần ít nhất hàng tháng. Ngay cả khi cần một số lượng dự báo nhỏ hơn, có thể không có ai được đào tạo phù hợp về việc sử dụng các mô hình chuỗi thời gian để tạo ra chúng. Trong những trường hợp này, thuật toán dự báo tự động là một công cụ thiết yếu. " Lưu ý những trường hợp này .
Scortchi - Phục hồi Monica

2
Cảm ơn nhưng tôi đã đọc nó trước đây. Ngay cả khi chúng ta bỏ qua các vấn đề rõ ràng với phần "tự động" bây giờ, vẫn có vấn đề với phần "arima", đặc biệt là khi nó được mở rộng để bao gồm các mô hình theo mùa. Các mô hình ARIMA theo mùa đã bị chỉ trích mạnh mẽ bởi PJ Harrison, C Chatfield và một số tính cách khác mà tôi tình cờ thích học hỏi. Tôi không có gì chống lại dự báo tự động khi tôi) hoàn toàn cần thiết và ii) dựa trên các thuật toán tôi có thể tìm thấy âm thanh - nếu không tôi làm theo lời khuyên của DR Cox trong nhận xét của ông về bài báo "hai nền văn hóa" của Leo Breiman trong Stat Science vài năm trước.
Ngủ đông

8

PP


2
Câu cuối cùng của bạn là thú vị. Tôi nhớ rằng tôi đã đọc rằng việc thêm các yếu tố dự đoán thậm chí không đáng kể vào hồi quy cũng có thể được biện minh nếu mục đích cuối cùng là dự đoán. Tôi đã không chú ý đến nó vào thời điểm đó nhưng bây giờ tôi sẽ thử và tìm tài liệu tham khảo đó.
Ngủ đông

3
Thay vì thêm tôi sẽ nói tránh loại bỏ . Và đó không chỉ là dự đoán, mà sử dụng các đánh giá liên kết thống kê để hướng dẫn lựa chọn biến gây ra sai lệch và sai số chuẩn và giới hạn độ tin cậy không hợp lệ.
Frank Harrell
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.