Kinh tế lượng chuỗi thời gian xử lý một câu hỏi tương tự: Nếu yt và xtlà các biến chuỗi thời gian, bạn có nên tin tưởng một hồi quy tuyến tính với hai biến không? Câu trả lơi con phụ thuộc vao nhiêu thư".
Nó phụ thuộc vào việc mối quan hệ được quan sát giữa hai biến có tiếp tục đúng hay không trong tương lai. Nếuyt và xtđều không cố định, sau đó mối quan hệ được quan sát có thể tan vỡ trong tương lai. Nếuyt và xt đều đứng yên, sau đó mối quan hệ được quan sát sẽ giữ trong tương lai.
Đây là một ví dụ mô phỏng. Các biến,xt và yt, đều không cố định theo thiết kế. Mặc dù mô hình hồi quy nói rằng mối quan hệ được quan sát là mạnh mẽ (dựa trên giá trị p vàR2), hết thời gian R2 là khủng khiếp (mô hình tồi tệ hơn nhiều so với việc sử dụng trung bình như một dự đoán).
### create two non-stationary variables
set.seed(12345)
x <- 100 + cumsum(rnorm(1000))
y <- 200 + cumsum(rnorm(1000))
df <- data.frame(y=y, x=x)
### split between training and test
train <- df[1:800, ] ## 80% train
test <- df[801:1000, ] ## 20% train
### linear regression
lm.mod <- lm(y~x, data=train)
summary(lm.mod)
### measure fit
library(caret)
in.sample.R2 <- R2(lm.mod$fitted.values, train$y, formula="traditional")
out.sample.R2 <- R2(predict(lm.mod, newdata=test), test$y, formula="traditional")
in.sample.R2
out.sample.R2
TLDR; Dự đoán tương lai là khó khăn. Hồi quy tuyến tính sử dụng dữ liệu chuỗi thời gian có thể cực kỳ sai lệch. Giữ một số dữ liệu của bạn dựa trên thời gian tuần tự (ví dụ: giữ 9 quý cuối của chuỗi thời gian của bạn). Xác thực mô hình của bạn bằng cách sử dụng dữ liệu giữ.