Tại sao tiêu chí thông tin (không được điều chỉnh ) được sử dụng để chọn thứ tự độ trễ phù hợp trong mô hình chuỗi thời gian?


9

Trong các mô hình chuỗi thời gian, như ARMA-GARCH, để chọn độ trễ hoặc thứ tự phù hợp của tiêu chí thông tin khác nhau của mô hình, như AIC, BIC, SIC, v.v., được sử dụng.

Câu hỏi của tôi rất đơn giản, tại sao donot chúng tôi sử dụng điều chỉnh để chọn mô hình phù hợp? Chúng ta có thể chọn mô hình dẫn đến giá trị cao hơn của điều chỉnh . Bởi vì cả hai điều chỉnh và tiêu chí thông tin đều bị phạt đối với số lượng hồi quy bổ sung trong mô hình, trong đó trước đây sẽ phạt và sau đó xử phạt giá trị khả năng. R2R2R2R2


Tôi có thể thiếu một cái gì đó trong các câu trả lời (bên dưới) nhưng bình phương R cũng như bình phương R đã điều chỉnh phù hợp với lớp mô hình ước tính OLS tương đối hạn chế trong khi AIC, BIC, v.v., phù hợp với lớp tuyến tính tổng quát rộng hơn các mô hình ước tính, có lẽ, với ML hoặc một biến thể.
Mike Hunter

Câu trả lời:


12

Tôi sẽ lập luận rằng ít nhất là khi thảo luận về các mô hình tuyến tính (như các mô hình AR), và AIC được điều chỉnh không khác nhau.R2

Hãy xem xét câu hỏi có nên đưa vào Điều này tương đương với việc so sánh các mô hình trong đó . Chúng tôi nói rằng là mô hình thực sự nếu . Lưu ý rằng . Các mô hình được lồng nhau . Quy trình lựa chọn mô hình là quy tắc phụ thuộc vào dữ liệu, chọn một số mô hình hợp lý nhất. y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ε M 1X2

y=X1(n×K1)β1+X2(n×K2)β2+ϵ
E(u|X1,X2)=0M2β20M1M2 M
M1:y=X1β1+uM2:y=X1β1+X2β2+u,
E(u|X1,X2)=0M2β20M1M2M^

Chúng tôi nói là nhất quán nếu M^

limnP(M^=M1|M1)=1limnP(M^=M2|M2)=1

Xem xét điều chỉnh . Nghĩa là chọn if . Vì đang giảm đơn điệu trong , quy trình này tương đương với giảm thiểu . Đổi lại, điều này tương đương với việc giảm thiểu . Đối với đủ lớn , cái sau có thể được viết là trong đóR2M1R¯12>R¯22R¯2s2s2log(s2)n

log(s2)=log(σ^2nnK)=log(σ^2)+log(1+KnK)log(σ^2)+KnKlog(σ^2)+Kn,
σ^2là công cụ ước tính ML của phương sai lỗi. Do đó, lựa chọn mô hình dựa trên tương đương với việc chọn mô hình có nhỏ nhất . Thủ tục này không nhất quán.R¯2log(σ^2)+K/n

Đề xuất :

limnP(R¯12>R¯22|M1)<1

Bằng chứng : trong đó dòng thứ 2 đến cuối cùng theo sau bởi vì thống kê là thống kê LR trong trường hợp hồi quy tuyến tính theo sau tiệm cận phân phối null. QED

P(R¯12>R¯22|M1)P(log(s12)<log(s22)|M1)=P(nlog(s12)<nlog(s22)|M1)P(nlog(σ^12)+K1<nlog(σ^22)+K1+K2|M1)=P(n[log(σ^12)log(σ^22)]<K2|M1)P(χK22<K2)<1,
χK22

Bây giờ hãy xem xét tiêu chí của Akaike, Do đó, AIC cũng đánh đổi việc giảm SSR được ngụ ý bởi các biến hồi quy bổ sung chống lại "thời hạn phạt" , "Chỉ vào hướng ngược lại. Do đó, chọn nếu , nếu không thì chọn .

AIC=log(σ^2)+2Kn
M1AIC1<AIC2M2

Có thể thấy rằng cũng không nhất quán bằng cách tiếp tục bằng chứng trên trong dòng ba với . Do đó, và điều chỉnh chọn mô hình "lớn" với xác suất dương, ngay cả khi là mô hình thực.AICP(nlog(σ^12)+2K1<nlog(σ^22)+2(K1+K2)|M1)R2AICM2M1

Vì hình phạt cho sự phức tạp trong AIC lớn hơn một chút so với điều chỉnh , mặc dù vậy, nó có thể ít bị chọn quá mức. Và nó có các thuộc tính tốt đẹp khác (giảm thiểu phân kỳ KL thành mô hình thực nếu điều đó không nằm trong tập hợp các mô hình được xem xét) không được đề cập trong bài viết của tôi.R2


1
Câu trả lời tuyệt vời: không quá nặng nhưng vẫn chính xác! Nếu nó đã ở đó ngày hôm qua, tôi sẽ không đăng của tôi.
Richard Hardy

Còn đối với trường hợp ARMA-GARCH thì sao? Làm thế nào sẽ làm tại chọn amung MA và GARCH ngữ? Radj2
Zachary Blumenfeld

Tôi không dám nói. Như bạn giải thích, thậm chí không rõ R2 có nghĩa gì cho sự phù hợp của một mô hình như vậy.
Christoph Hanck

5

Hình phạt trong không mang lại các đặc tính tốt về mặt lựa chọn mô hình như được quy định bởi AIC hoặc BIC. Hình phạt trong là đủ để biến thành một công cụ ước tính không thiên vị của dân số khi không có biến hồi quy nào thực sự thuộc về mô hình (theo bài đăng trên blog của Dave Giles "In What Sense là R-Squared "Điều chỉnh" không thiên vị? "" Thông tin thêm về các thuộc tính của "Hệ số xác định" đã điều chỉnh " ); tuy nhiên, không phải là bộ chọn mô hình tối ưu.Radj2Radj2Radj2R2Radj2

(Có thể có một bằng chứng bằng mâu thuẫn: nếu AIC tối ưu theo một nghĩa và BIC là tối ưu theo nghĩa khác và không tương đương với một trong hai, thì cũng không tối ưu của hai giác quan này.)Radj2Radj2


Tôi phải thêm bao nhiêu tham số GARCH trước khi tăng? :) .... Tôi tin rằng một lập luận tương tự có thể được đưa ra cho giả định sai số tương quan (như trong mô hình MA), mô hình GLS không làm giảm tổng số dư bình phương so với bình phương tối thiểu thông thường. Trong cả MA và GARCH, các tham số (không phải là biến giải thích, mà được điều chỉnh) được thêm vào mô hình. MA và GARCH thông số không được thêm vào để giảm , chứ không phải họ đang bổ sung để tăng khả năng và / hoặc giảm một trọng tổng dư bình phương để phản ánh sự thiếu về lỗi iid. R2R2adjSSR
Zachary Blumenfeld

Điều này thực sự giải quyết bài viết gốc hoặc câu trả lời của tôi? Trong mọi trường hợp, tôi đồng ý với quan điểm của bạn.
Richard Hardy

Điều tôi đã cố gắng chỉ ra là thực sự không thể được sử dụng để chọn các thành phần GARCH (và có thể cả các thành phần MA) vì nó dựa trên tỷ lệ so với là các công cụ ước tính sai lệch của phương sai khi các điều khoản lỗi không phải là iid. (đây chỉ là một trường hợp cụ thể của sự thiên vị mà bạn nói về). Trong trường hợp ARMA-GARCH, bạn sẽ không bao giờ chọn một mô hình có các thành phần GARCH, ngay cả khi có sự biến động ngẫu nhiên trong dữ liệu, vì nó không tăng . Về cơ bản, tôi đồng ý với bạn bằng cách cố gắng đưa ra ví dụ cụ thể. Radj2SSTSSRSSTR2
Zachary Blumenfeld
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.