Xây dựng chuỗi thời gian bao gồm nhiều quan sát cho mỗi ngày


11

Tôi đang cố gắng áp dụng chuỗi thời gian cho dữ liệu được lấy mẫu hàng quý (sinh khối động vật) trong khoảng thời gian 10 năm với 3 lần lặp lại mỗi quý. Vì vậy, 40 ngày nhưng tổng số 120 quan sát.

Tôi đã đọc tới SARIMA'a trong Phân tích chuỗi thời gian của Shumway và Stoffer và đó là Ứng dụng cũng như đọc lướt qua Woodward, et. Phân tích chuỗi thời gian ứng dụng của al. và sự hiểu biết của tôi là mỗi mô hình dựa trên một quan sát duy nhất tại mỗi điểm trong chuỗi thời gian.

HỎI: Làm thế nào tôi có thể bao gồm các biến thể trong mỗi quan sát trong mô hình của mình? Tôi có thể xây dựng một loạt trên trung bình, nhưng tôi sẽ mất đi sự khác biệt ở mỗi lần quan sát và tôi nghĩ điều đó rất quan trọng đối với sự hiểu biết của tôi về những gì đang xảy ra.


SARIMA có thể được mở rộng sang trường hợp đa biến, có thể phù hợp với bạn. Từ khóa trong trường hợp này là VAR. Điều này có nghĩa là bạn quan sát một vectơ số thay vì một số cho mỗi khoảng thời gian.
mpiktas

Câu trả lời:


4

Tùy thuộc vào ý nghĩa chính xác của bạn bởi "3 reps mỗi quý", một mô hình dữ liệu bảng ( wikipedia ) có thể có ý nghĩa. Điều này có nghĩa là bạn đang thực hiện ba phép đo mỗi quý, một trong ba nguồn khác nhau giữ nguyên theo thời gian. Dữ liệu của bạn sẽ trông giống như:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

Nếu đây là những gì bạn đang xem, có một số mô hình để làm việc với dữ liệu bảng. Đây là một bản trình bày phù hợp bao gồm một số R cơ bản mà bạn sẽ sử dụng để xem dữ liệu bảng. Tài liệu này đi sâu hơn một chút, mặc dù theo quan điểm kinh tế lượng.

Tuy nhiên, nếu dữ liệu của bạn không phù hợp với phương pháp dữ liệu bảng, có những công cụ khác có sẵn cho "dữ liệu gộp". Một định nghĩa từ bài báo này (pdf) :

Tập hợp dữ liệu có nghĩa là phân tích thống kê sử dụng nhiều nguồn dữ liệu liên quan đến nhiều quần thể. Nó bao gồm tính trung bình, so sánh và giải thích thông tin chung. Các kịch bản và vấn đề khác nhau cũng phát sinh tùy thuộc vào việc các nguồn dữ liệu và dân số liên quan là giống nhau / giống nhau hay khác nhau.

Như bạn có thể thấy, từ định nghĩa đó, các kỹ thuật bạn sẽ sử dụng sẽ phụ thuộc vào chính xác những gì bạn muốn học từ dữ liệu của mình.

Nếu tôi đề xuất một nơi để bạn bắt đầu, giả sử rằng ba lần rút của bạn cho mỗi quý là nhất quán theo thời gian, tôi sẽ nói bắt đầu bằng cách sử dụng công cụ ước tính hiệu ứng cố định (còn gọi là công cụ ước tính bên trong) với mô hình dữ liệu bảng điều khiển của bạn dữ liệu.

Ví dụ của tôi ở trên, mã sẽ trông giống như:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

Cung cấp cho chúng ta đầu ra sau:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

Ở đây chúng ta có thể thấy rõ ảnh hưởng của thời gian trong hệ số lên biến số quý, cũng như ảnh hưởng của việc nằm trong nhóm B hoặc nhóm C (trái ngược với nhóm A).

Hy vọng điều này chỉ cho bạn một nơi nào đó đúng hướng.


3

Tôi nghĩ rằng điều này là thú vị. Đề nghị của tôi sẽ là trung bình ba điểm dữ liệu để có được một chuỗi thời gian trơn tru để phù hợp. Như bạn chỉ ra nếu bạn làm điều này bỏ qua rằng bạn đã lấy trung bình của ba quan sát bạn đang vứt bỏ thông tin. Nhưng với mỗi điểm thời gian, bạn có thể tính tổng độ lệch bình phương so với giá trị trung bình. Tập hợp các tổng bình phương đó trong tất cả các khoảng thời gian và chia cho n-1 trong đó n là tổng số điểm được sử dụng trong phép tính. Nếu bạn có một mô hình với cấu trúc chuỗi thời gian (ví dụ: xu hướng, thành phần theo mùa, cấu trúc phụ thuộc AR) thì phép tính này có thể là ước tính độc lập và không thiên vị về phương sai của thuật ngữ lỗi trong mô hình.


1
3nn3n2nn-13n-1
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.