Số liệu thống kê Ljung-Box cho phần dư ARIMA trong R: kết quả kiểm tra khó hiểu


14

Tôi có một chuỗi thời gian tôi đang cố gắng dự báo, trong đó tôi đã sử dụng mô hình ARIMA theo mùa (0,0,0) (0,1,0) [12] (= fit2). Nó khác với những gì R đề xuất với auto.arima (R tính ARIMA (0,1,1) (0,1,0) [12] sẽ phù hợp hơn, tôi đặt tên cho nó là fit1). Tuy nhiên, trong 12 tháng cuối của chuỗi thời gian của tôi, mô hình của tôi (fit2) dường như phù hợp hơn khi được điều chỉnh (nó bị sai lệch thường xuyên, tôi đã thêm giá trị trung bình còn lại và sự phù hợp mới dường như nằm gọn hơn trong chuỗi thời gian ban đầu Dưới đây là ví dụ về 12 tháng qua và MAPE trong 12 tháng gần đây nhất cho cả hai sự phù hợp:

fit1, fit2 và dữ liệu gốc

Chuỗi thời gian trông như thế này:

chuỗi thời gian ban đầu

Càng xa càng tốt. Tôi đã thực hiện phân tích dư cho cả hai mô hình, và đây là sự nhầm lẫn.

Acf (Resid (fit1)) trông rất tuyệt, rất trắng-noisey:

acf của fit1

Tuy nhiên, ví dụ, bài kiểm tra Ljung-Box có vẻ không tốt cho 20 lần trễ:

    Box.test(resid(fit1),type="Ljung",lag=20,fitdf=1)

Tôi nhận được kết quả sau:

    X-squared = 26.8511, df = 19, p-value = 0.1082

Theo hiểu biết của tôi, đây là sự xác nhận rằng phần dư không độc lập (giá trị p quá lớn để tồn tại với Giả thuyết Độc lập).

Tuy nhiên, đối với độ trễ 1, mọi thứ đều tuyệt vời:

    Box.test(resid(fit1),type="Ljung",lag=1,fitdf=1)

cho tôi kết quả:

    X-squared = 0.3512, df = 0, p-value < 2.2e-16

Hoặc là tôi không hiểu bài kiểm tra, hoặc nó hơi mâu thuẫn với những gì tôi thấy trên cốt truyện acf. Sự tự kỷ là cười thấp.

Sau đó tôi kiểm tra fit2. Hàm autocorrelation trông như thế này:

acf fit2

Mặc dù tự động tương quan rõ ràng như vậy ở một số độ trễ đầu tiên, thử nghiệm Ljung-Box cho tôi kết quả tốt hơn nhiều ở 20 độ trễ, so với fit1:

    Box.test(resid(fit2),type="Ljung",lag=20,fitdf=0)

kết quả trong :

    X-squared = 147.4062, df = 20, p-value < 2.2e-16

trong khi chỉ kiểm tra tự động tương quan ở lag1, cũng cho tôi xác nhận giả thuyết khống!

    Box.test(resid(arima2.fit),type="Ljung",lag=1,fitdf=0)
    X-squared = 30.8958, df = 1, p-value = 2.723e-08 

Tôi có hiểu bài kiểm tra một cách chính xác không? Giá trị p nên được ưu tiên nhỏ hơn 0,05 để xác nhận giả thuyết khống về tính độc lập của phần dư. Sự phù hợp nào là tốt hơn để sử dụng để dự báo, fit1 hoặc fit2?

Thông tin bổ sung: phần dư của fit1 hiển thị phân phối bình thường, những phần còn lại của fit2 thì không.


2
Bạn không hiểu giá trị p và đang diễn giải chúng sai cách.
Scortchi - Phục hồi Monica

Vâng, nó có thể là câu hỏi của sự hiểu biết. Bạn có thể vui lòng mở rộng? Ví dụ, chính xác nghĩa là gì nếu giá trị p lớn hơn 0,5? Tôi đã đọc định nghĩa về giá trị p (xác suất đạt được số liệu thống kê ít nhất là cực đoan như thống kê kiểm tra cho rằng các giả thuyết null giữ). Làm thế nào để áp dụng cho thử nghiệm Ljung-Box? "Ít nhất là cực" có nghĩa là "lớn hơn X bình phương"? Tôi sẽ biết ơn ví dụ với dữ liệu của tôi, vì việc kiểm tra ý nghĩa đã rất khó khăn để tôi hiểu.
zima

5
Thống kê kiểm tra Ljung-Box ( X-squared) trở nên lớn hơn khi các tương quan tự động mẫu của phần dư trở nên lớn hơn (xem định nghĩa của nó), và giá trị p của nó là xác suất nhận được giá trị lớn hơn hoặc lớn hơn giá trị quan sát được dưới giá trị null giả thuyết rằng những đổi mới thực sự là độc lập. Do đó, giá trị p nhỏ là bằng chứng chống lại sự độc lập.
Scortchi - Phục hồi Monica

@Scortchi, tôi nghĩ rằng tôi đã nhận nó. Nhưng điều đó cũng làm cho bài kiểm tra của tôi ở độ trễ = 1 cho fit1 không thành công. Làm thế nào điều này có thể được giải thích? Tôi không thấy bất kỳ tự động tương quan nào ở độ trễ = 1. Có một số loại cực đoan của thử nghiệm này với số lượng độ trễ nhỏ (mẫu rất nhỏ)?
zima

3
Box-Ljung là một bài kiểm tra độc lập về sự độc lập ở tất cả độ trễ cho đến khi bạn chỉ định. Các mức độ tự do được sử dụng là không. độ trễ trừ đi không. Các tham số AR & MA ( fitdf) để bạn kiểm tra phân phối chi bình phương với độ tự do bằng không.
Scortchi - Phục hồi Monica

Câu trả lời:


32

Bạn đã giải thích bài kiểm tra sai. Nếu giá trị p lớn hơn 0,05 thì phần dư là độc lập mà chúng ta muốn mô hình là chính xác. Nếu bạn mô phỏng chuỗi thời gian nhiễu trắng bằng mã bên dưới và sử dụng thử nghiệm tương tự cho nó thì giá trị p sẽ lớn hơn 0,05.

m = c(ar, ma)
w = arima.sim(m, 120)
w = ts(w)
plot(w)
Box.test(w, type="Ljung-Box")

3
Một lời giải thích ngắn gọn và gọn gàng. +1 cho ví dụ mã.
Dawny33

1
Giải thích của bạn là không chính xác là tốt. Giá trị p là 0,05 có nghĩa là bạn có 5% cơ hội để gây ra lỗi nếu bạn từ chối giả thuyết khống về việc không có tương quan tự động cho đến khi đặt hàng 1 trong trường hợp của bạn.
DJJ

7

Nhiều kiểm tra thống kê được sử dụng để cố gắng bác bỏ một số giả thuyết khống. Trong trường hợp cụ thể này, thử nghiệm Ljung-Box cố gắng từ chối tính độc lập của một số giá trị. Nó có nghĩa là gì?

  • Nếu giá trị p <0,05 1 : Bạn có thể từ chối giả thuyết khống với giả định 5% khả năng mắc lỗi. Vì vậy, bạn có thể giả định rằng các giá trị của bạn đang thể hiện sự phụ thuộc lẫn nhau.

  • Nếu giá trị p> 0,05 1 : Bạn không có đủ bằng chứng thống kê để từ chối giả thuyết khống. Vì vậy, bạn không thể cho rằng giá trị của bạn phụ thuộc. Điều này có thể có nghĩa là giá trị của bạn vẫn phụ thuộc hoặc có thể có nghĩa là giá trị của bạn độc lập. Nhưng bạn không chứng minh được bất kỳ khả năng cụ thể nào, điều mà bài kiểm tra của bạn thực sự nói là bạn không thể khẳng định sự phụ thuộc của các giá trị, bạn cũng không thể khẳng định tính độc lập của các giá trị.

Nói chung, điều quan trọng ở đây là hãy nhớ rằng giá trị p <0,05 cho phép bạn từ chối giả thuyết null, nhưng giá trị p> 0,05 không cho phép bạn xác nhận giả thuyết null.

Cụ thể, bạn không thể chứng minh tính độc lập của các giá trị của Chuỗi thời gian bằng cách sử dụng thử nghiệm Ljung-Box. Bạn chỉ có thể chứng minh sự phụ thuộc.


α= =0,05


α= =0,05

0

Theo các đồ thị ACF, rõ ràng là độ khớp 1 tốt hơn do hệ số tương quan ở độ trễ k (k> 1) giảm mạnh và gần bằng 0.


0

Nếu bạn đang đánh giá với ACF thì phù hợp 1 là phù hợp hơn. Thay vì nhầm lẫn trong thử nghiệm Ljung, bạn vẫn có thể sử dụng biểu đồ tương quan của phần dư để xác định mức độ phù hợp nhất giữa fit1 và fit2


1
Tôi không hiểu câu trả lời này.
Michael R. Chernick

Khi chúng tôi truy cập số liệu thống kê của hộp Ljung, chúng tôi có thể quan tâm đến kiểm tra chẩn đoán mô hình, tính thỏa đáng của mô hình ..... Nếu sử dụng điều đó gây nhầm lẫn cho bạn, có nhiều cách khác để kiểm tra tính thỏa đáng của mô hình mà tôi đã nêu ở trên. Bạn có thể vẽ biểu đồ tương quan Ie, ACF và PACF của dữ liệu còn lại và sau đó kiểm tra giới hạn của chuỗi nếu đó là nhiễu trắng ...... Không nhất thiết phải sử dụng thử nghiệm hộp Ljung
Vincent
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.