Tính toán lỗi dự báo với xác thực chéo chuỗi thời gian


13

Tôi có một mô hình dự báo cho một chuỗi thời gian và tôi muốn tính toán lỗi dự đoán ngoài mẫu của nó. Hiện tại, chiến lược tôi đang theo là chiến lược được đề xuất trên blog của Rob Hyndman (gần cuối trang) diễn ra như thế này (giả sử chuỗi thời gian và tập huấn luyện có kích thước ) ky1,Giáo dục,ynk

  1. mô hình với dữ liệu và để là dự báo cho lần quan sát tiếp theo.y t + kyt,Giáo dục,yt+k-1y^t+k
  2. Tính toán lỗi dự báo là .et= =y^t+k-yt+k
  3. Lặp lại chot= =1,Giáo dục,n-k
  4. Tính sai số bình phương trung bình làMSE= =1n-kΣt= =1n-ket2

Câu hỏi của tôi là tôi phải lo lắng bao nhiêu về mối tương quan vì các bộ huấn luyện chồng chéo của tôi. Cụ thể, giả sử tôi muốn dự báo không chỉ giá trị tiếp theo, mà cả các giá trị tiếp theo , để tôi có dự đoán và các lỗi và tôi muốn xây dựng một cấu trúc thuật ngữ của các lỗi dự đoán.my^t+k,Giáo dục,y^t+k+m-1et,1,Giáo dục,et,m

Tôi vẫn có thể cuộn cửa sổ của khóa đào tạo được chuyển tiếp 1 lần mỗi lần, hay tôi nên cuộn nó về phía trước bằng m ? Làm thế nào để câu trả lời cho những câu hỏi này thay đổi nếu có sự tự tương quan đáng kể trong chuỗi mà tôi dự đoán (có thể hiểu đó là một quá trình bộ nhớ dài, tức là chức năng tự tương quan phân rã như một định luật lũy thừa chứ không phải theo cấp số nhân.)

Tôi đánh giá cao một lời giải thích ở đây hoặc liên kết đến một nơi nào đó nơi tôi có thể tìm thấy kết quả lý thuyết về khoảng tin cậy xung quanh MSE (hoặc các biện pháp lỗi khác).

Câu trả lời:


11

Có vẻ như bạn có thể quan tâm hơn đến việc ước tính lỗi bằng cách sử dụng bootstrap entropy tối đa , thay vì xác thực chéo. Điều này sẽ cho phép bạn tạo nhiều bootstraps dữ liệu của mình, sau đó bạn có thể chia thành nhiều bộ thử nghiệm / thử nghiệm như bạn muốn để tính khoảng tin cậy cho dự báo của bạn.

Rob Hyndman có một số thảo luận thêm về xác thực chéo chuỗi thời gian trên blog của mình , nơi anh thực hiện một số phương pháp "lăn" và dự báo khác nhau, nhưng chủ yếu tập trung vào việc thực hiện. Tôi có một số triển khai thêm trên blog của tôi là tốt. Có thể cách tiếp cận đơn giản nhất sẽ là trung bình lỗi của bạn trên tất cả các cửa sổ thời gian, và do đó bỏ qua và các mối tương quan tiềm ẩn trong lỗi.

Theo như tôi có thể nói, trạng thái lý thuyết của xác thực chéo cho dữ liệu chuỗi thời gian có phần đứng sau trạng thái lý thuyết của xác thực chéo chung. Theo trực giác, tôi hy vọng lỗi sẽ tăng khi đường chân trời tăng, điều này cho thấy rằng bạn nên mong đợi các lỗi tương quan trên các chân trời dự báo khác nhau. Tại sao điều này làm bạn lo lắng?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.