Mối quan hệ giữa hai chuỗi thời gian: ARIMA


12

Cho hai chuỗi thời gian sau ( x , y ; xem bên dưới), phương pháp tốt nhất để mô hình hóa mối quan hệ giữa các xu hướng dài hạn trong dữ liệu này là gì?

Cả hai chuỗi thời gian đều có các thử nghiệm Durbin-Watson đáng kể khi được mô hình hóa theo chức năng của thời gian và không dừng (như tôi hiểu thuật ngữ này, hoặc điều này có nghĩa là nó chỉ cần đứng yên trong phần dư?). Tôi đã được thông báo rằng điều này có nghĩa là tôi nên lấy chênh lệch bậc một (ít nhất, thậm chí là bậc 2) của mỗi chuỗi thời gian trước khi tôi có thể mô hình hóa một chức năng của một chuỗi khác, về cơ bản sử dụng arima (1,1,0 ), arima (1,2,0), v.v.

Tôi không hiểu tại sao bạn cần phải giảm giá trước khi bạn có thể mô hình hóa chúng. Tôi hiểu sự cần thiết phải mô hình hóa tương quan tự động, nhưng tôi không hiểu tại sao cần phải có sự khác biệt. Đối với tôi, dường như việc giảm dần bằng cách phân biệt đang loại bỏ các tín hiệu chính (trong trường hợp này là xu hướng dài hạn) trong dữ liệu mà chúng ta quan tâm và để lại "nhiễu" tần số cao hơn (sử dụng thuật ngữ nhiễu một cách lỏng lẻo). Thật vậy, trong các mô phỏng nơi tôi tạo mối quan hệ gần như hoàn hảo giữa chuỗi thời gian này và chuỗi khác, không có tự động tương quan, việc phân biệt chuỗi thời gian mang lại cho tôi kết quả trái ngược với mục đích phát hiện mối quan hệ, ví dụ:

a = 1:50 + rnorm(50, sd = 0.01)
b = a + rnorm(50, sd = 1)
da = diff(a); db = diff(b)
summary(lmx <- lm(db ~ da))

Trong trường hợp này, b có liên quan mạnh với a , nhưng b có nhiều nhiễu hơn. Đối với tôi điều này cho thấy sự khác biệt không hoạt động trong trường hợp lý tưởng để phát hiện mối quan hệ giữa các tín hiệu tần số thấp. Tôi hiểu rằng sự khác biệt thường được sử dụng để phân tích chuỗi thời gian, nhưng nó có vẻ hữu ích hơn để xác định mối quan hệ giữa các tín hiệu tần số cao. Tôi đang thiếu gì?

Dữ liệu mẫu

df1 <- structure(list(
x = c(315.97, 316.91, 317.64, 318.45, 318.99, 319.62, 320.04, 321.38, 322.16, 323.04, 324.62, 325.68, 326.32, 327.45, 329.68, 330.18, 331.08, 332.05, 333.78, 335.41, 336.78, 338.68, 340.1, 341.44, 343.03, 344.58, 346.04, 347.39, 349.16, 351.56, 353.07, 354.35, 355.57, 356.38, 357.07, 358.82, 360.8, 362.59, 363.71, 366.65, 368.33, 369.52, 371.13, 373.22, 375.77, 377.49, 379.8, 381.9, 383.76, 385.59, 387.38, 389.78), 
y = c(0.0192, -0.0748, 0.0459, 0.0324, 0.0234, -0.3019, -0.2328, -0.1455, -0.0984, -0.2144, -0.1301, -0.0606, -0.2004, -0.2411, 0.1414, -0.2861, -0.0585, -0.3563, 0.0864, -0.0531, 0.0404, 0.1376, 0.3219, -0.0043, 0.3318, -0.0469, -0.0293, 0.1188, 0.2504, 0.3737, 0.2484, 0.4909, 0.3983, 0.0914, 0.1794, 0.3451, 0.5944, 0.2226, 0.5222, 0.8181, 0.5535, 0.4732, 0.6645, 0.7716, 0.7514, 0.6639, 0.8704, 0.8102, 0.9005, 0.6849, 0.7256, 0.878),
ti = 1:52), 
.Names = c("x", "y", "ti"), class = "data.frame", row.names = 110:161)

ddf<- data.frame(dy = diff(df1$y), dx = diff(df1$x))
ddf2<- data.frame(ddy = diff(ddf$dy), ddx = diff(ddf$dx))
ddf$ti<-1:length(ddf$dx); ddf2$year<-1:length(ddf2$ddx)
summary(lm0<-lm(y~x, data=df1))      #t = 15.0
summary(lm1<-lm(dy~dx, data=ddf))    #t = 2.6
summary(lm2<-lm(ddy~ddx, data=ddf2)) #t = 2.6

Câu trả lời:


6

Matt, bạn rất đúng trong những lo ngại mà bạn đã nêu ra liên quan đến việc sử dụng cấu trúc khác biệt không cần thiết. Để xác định một mô hình phù hợp nhập mô tả hình ảnh ở đâycho dữ liệu của bạn mang lại cấu trúc quan trọng trong khi hiển thị quy trình Lỗi Gaussian nhập mô tả hình ảnh ở đâyvới ACF lànhập mô tả hình ảnh ở đâyquá trình mô hình hóa nhận dạng chức năng chuyển yêu cầu (trong trường hợp này) sự khác biệt phù hợp để tạo ra chuỗi thay thế đứng yên và do đó có thể sử dụng để XÁC NHẬN mối quan hệ. Trong trường hợp này, các yêu cầu khác biệt đối với NHẬN DẠNG là sự khác biệt kép đối với X và sự khác biệt đơn lẻ đối với Y. Ngoài ra, bộ lọc ARIMA cho X khác biệt gấp đôi được tìm thấy là AR (1). Áp dụng bộ lọc ARIMA này (chỉ cho mục đích nhận dạng!) Cho cả hai loạt văn phòng phẩm mang lại cấu trúc tương quan chéo sau đây. nhập mô tả hình ảnh ở đâygợi ý một mối quan hệ đương thời đơn giản. nhập mô tả hình ảnh ở đây. Lưu ý rằng trong khi loạt ban đầu thể hiện tính không cố định, điều này không nhất thiết ngụ ý rằng sự khác biệt là cần thiết trong một mô hình nguyên nhân. Mô hình cuối cùng nhập mô tả hình ảnh ở đâyvà acf cuối cùng hỗ trợ nàynhập mô tả hình ảnh ở đây. Khi kết thúc phương trình cuối cùng bên cạnh một sự thay đổi mức độ được xác định theo kinh nghiệm (những thay đổi thực sự chặn) là

 Y(t)=-4.78 + .192*X(t) - .177*X(t-1) which is NEARLY equal to 

 Y(t)=-4.78 + .192*[X(t)-X(t-1)] which means that changes in X effect the level of Y

Cuối cùng lưu ý các đặc điểm của mô hình đề xuất.nhập mô tả hình ảnh ở đây

chuỗi Dịch chuyển cấp độ (0,0,0,0,0,0,0,0,0,1,1, ........., 1) cho thấy nếu không được xử lý, phần dư của mô hình sẽ thể hiện một mức thay đổi trong hoặc khoảng thời gian 10 THUS một thử nghiệm giả thuyết về trung bình dư phổ biến giữa 10 dư đầu tiên và 42 cuối cùng sẽ có ý nghĩa ở alpha = .0002 dựa trên "thử nghiệm -4.10". Lưu ý rằng việc bao gồm một hằng số đảm bảo rằng giá trị trung bình tổng của phần dư không khác biệt đáng kể so với số 0 NHƯ điều này không nhất thiết cho tất cả các khoảng thời gian tập hợp con. Biểu đồ sau đây cho thấy rõ điều này (cho rằng bạn được yêu cầu nhìn!). Thực tế / Phù hợp / Dự báo là khá rõ ràng nhập mô tả hình ảnh ở đây. Thống kê giống như cột đèn, một số sử dụng chúng để dựa vào người khác sử dụng chúng để chiếu sáng.


Cảm ơn đã phân tích toàn diện Dave. Để tôi chắc chắn rằng tôi hiểu, 2 là biến x , 3 là biến x có độ trễ -1 và 4 là độ dịch chuyển? Không có đặc điểm kỹ thuật arima?
Matt Albrecht

@MattAlbrecht Y là người phụ thuộc (y của bạn với các giá trị .0192, -. 0748 ...); X1 là x của bạn với các giá trị 315.97; X2 là một biến giả 0,0,0,0,0,0,0,0,0,1,1,1, ... 1. Biến X1 có bot có hiệu ứng đồng thời và độ trễ với các hệ số [.192 và -.177 tương ứng]. Phương trình hoàn chỉnh cuối cùng là
IrishStat

@MattAlbrecht Y là người phụ thuộc (y của bạn với các giá trị .0192, -. 0748 ...); X1 là x của bạn với các giá trị 315.97; X2 là một biến giả 0,0,0,0,0,0,0,0,0,1,1,1, ... 1. Biến X1 có cả hiệu ứng đồng thời và độ trễ với các hệ số [.192 và -.177 tương ứng]. Phương trình hoàn chỉnh cuối cùng có 4 hệ số; một hằng số ; hai hệ số cho x và a của bạn
IrishStat

1

Tôi cũng không hiểu lời khuyên đó. Sự khác biệt loại bỏ xu hướng đa thức. Nếu loạt tương tự vì các xu hướng khác nhau về cơ bản sẽ loại bỏ mối quan hệ đó. bạn sẽ chỉ làm điều đó nếu bạn mong đợi các thành phần bị loại bỏ có liên quan. Nếu cùng một thứ tự khác nhau dẫn đến acfs cho các phần dư trông giống như chúng có thể là từ một mô hình ARMA cố định bao gồm nhiễu trắng có thể chỉ ra rằng cả hai chuỗi có cùng xu hướng đa thức giống nhau.


Sự khác biệt cũng có thể được sử dụng để khắc phục tình trạng không ổn định khi không có xu hướng. Việc sử dụng không chính đáng có thể tạo ra vô nghĩa thống kê / kinh tế lượng khi bạn chỉ ra một cách chính xác.
IrishStat

1

Cách tôi hiểu nó, phân biệt cho câu trả lời rõ ràng hơn trong hàm tương quan chéo. So sánh ccf(df1$x,df1$y)ccf(ddf$dx,ddf$dy).


Tôi đồng ý rằng mối tương quan chéo cho thấy mối quan hệ tồn tại giữa các chuỗi khác biệt nhưng quan điểm của tôi là các chuỗi này dường như có liên quan chủ yếu vì các xu hướng khác biệt loại bỏ.
Michael R. Chernick

Bạn không trả lời câu hỏi của riêng bạn ở đó? Có một xu hướng chung, chúng tôi đồng ý về điều đó. Sự khác biệt cho phép nhìn qua xu hướng: Biến động xung quanh xu hướng như thế nào? Trong trường hợp này, mối tương quan giữa x và y xảy ra với độ trễ 0 và 8. Hiệu ứng ở độ trễ 8 cũng có thể nhìn thấy trong tự động tương quan của ddf $ dy. Bạn sẽ không biết rằng nếu không có sự khác biệt.
Kees
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.