Dự báo dữ liệu chuỗi thời gian với các biến ngoài


10

Hiện tại tôi đang làm việc trên một dự án để dự báo dữ liệu chuỗi thời gian (dữ liệu hàng tháng). Tôi đang sử dụng R để làm dự báo. Tôi có 1 biến phụ thuộc (y) và 3 biến độc lập (x1, x2, x3). Biến y có 73 quan sát và 3 biến còn lại (alos 73) cũng vậy. Từ tháng 1 năm 2009 đến tháng 1 năm 2015. Tôi đã kiểm tra các mối tương quan và giá trị p, và tất cả đều có ý nghĩa để đưa nó vào một mô hình. Câu hỏi của tôi là: Làm thế nào tôi có thể dự đoán tốt bằng cách sử dụng tất cả các biến độc lập? Tôi không có giá trị trong tương lai cho các biến này. Hãy nói rằng tôi muốn dự đoán biến y của tôi trong hơn 2 năm (năm 2017). Tôi có thể làm cái này như thế nào?

Tôi đã thử đoạn mã sau:

    model = arima(y, order(0,2,0), xreg = externaldata) 

Tôi có thể dự đoán giá trị y trong hơn 2 năm với mã này không?

Tôi cũng đã thử một mã hồi quy:

    reg = lm(y ~ x1 + x2 + x3) 

Nhưng làm thế nào để tôi dành thời gian trong mã này? Làm thế nào tôi có thể dự đoán giá trị y của tôi sẽ kết thúc trong 2 năm tới? Tôi là người mới để thống kê và dự báo. Tôi đã thực hiện một số đọc và cam trên giá trị độ trễ, nhưng làm cách nào tôi có thể sử dụng giá trị độ trễ trong mô hình để dự báo?

Trên thực tế câu hỏi chung của tôi là làm thế nào tôi có thể dự báo dữ liệu chuỗi thời gian với các biến bên ngoài không có giá trị trong tương lai?


Không bao giờ sử dụng hồi quy với dữ liệu chuỗi thời gian. Sử dụng phương pháp mô hình Hàm truyền.
Tom Reilly

2
Xin chào ông, ông có thể cho tôi biết thêm về một mô hình chức năng chuyển giao? Và tại sao tôi không bao giờ nên sử dụng hồi quy với dữ liệu chuỗi thời gian? Hầu hết các nghiên cứu đề nghị sử dụng hồi quy với chuỗi thời gian.
SB

Mô hình Hàm truyền được giải thích trong sách giáo khoa Box-Jenkins trong Chương 10. Mục tiêu là xây dựng mô hình cho từng nguyên nhân (làm trắng trước) và sau đó sử dụng phần dư để tìm mối tương quan với Y (tương quan chéo). Điều này sẽ giúp bạn xác định các biến nào là quan trọng và nếu có bất kỳ mối quan hệ dẫn hoặc trễ. Có thể cần ARIMA trong phương trình hoặc mẫu số này trên các biến X. Bạn cũng có thể có các ngoại lệ, thay đổi về xu hướng, mức độ, thời vụ, thông số và phương sai.
Tom Reilly

Cũng có thể có một hồi quy giả định rằng thời gian không quan trọng. Hồi quy được Galton sử dụng để nghiên cứu Sweat Peas ... không phải là vấn đề theo chuỗi thời gian. Hàm truyền sử dụng các phần của quy trình để ước tính vấn đề.
Tom Reilly

Câu trả lời:


11

Nếu bạn phù hợp với một mô hình sử dụng các biến bên ngoài và muốn dự báo từ mô hình này, bạn sẽ cần (dự báo) các giá trị tương lai của các biến bên ngoài, đơn giản và đơn giản. Không có cách nào xung quanh điều này.

Tất nhiên có nhiều cách khác nhau để dự báo các biến giải thích của bạn. Bạn có thể sử dụng giá trị quan sát cuối cùng (dự báo "bước đi ngẫu nhiên ngây thơ") hoặc trung bình tổng thể. Bạn có thể chỉ cần đặt chúng về 0 nếu đây là một giá trị hữu ích cho chúng (ví dụ: các sự kiện đặc biệt đã xảy ra trong quá khứ như một trận động đất, mà bạn không dự đoán sẽ tái diễn). Hoặc bạn có thể điều chỉnh và dự báo một mô hình chuỗi thời gian cho chính các biến giải thích này, ví dụ: bằng cách sử dụng auto.arima.

Cách khác là điều chỉnh mô hình phù hợp các giá trị của bạn mà không cần các biến giải thích, bằng cách xóa tham số, sau đó dự báo bằng mô hình này. Một lợi thế là điều này thậm chí có thể nắm bắt sự đều đặn trong các biến giải thích của bạn. Chẳng hạn, doanh số bán kem của bạn có thể bị chi phối bởi nhiệt độ và bạn không có dự báo tốt về nhiệt độ trước một vài tháng ... nhưng nhiệt độ là theo mùa, do đó, chỉ cần lắp một mô hình không có nhiệt độ sẽ tạo ra mô hình theo mùa và theo mùa của bạn dự báo có thể thực sự khá tốt ngay cả khi bạn không bao gồm người điều khiển doanh số thực tế.yyxregy

Tôi khuyên bạn nên sử dụng sách giáo khoa dự báo trực tuyến miễn phí này , đặc biệt là phần này về hồi quy bội (thật không may, không có gì về ARIMAX ở đó), cũng như bài đăng trên blog của Rob Hyndman "Mô hình ARIMAX" .


1

Như Yogi Berra đã nói, "Thật khó để đưa ra dự đoán, đặc biệt là về tương lai."

Nhiều mô-đun phần mềm thống kê sẽ tạo dự báo dựa trên chuỗi thời gian đơn biến trong trường hợp không có bất kỳ thông tin nào trong tương lai, ví dụ: Dự báo Proc trong SAS hoặc bất kỳ số mô-đun ARIMA nào có sẵn. Những dự báo này là dự đoán dựa trên hành vi lịch sử của dữ liệu của bạn.

Bạn nói với chúng tôi rằng dữ liệu của bạn là hàng tháng nhưng đừng cho chúng tôi biết bạn có bao nhiêu thời gian. Một cách tiếp cận khác là đặt ba IV của bạn trở lại sau 24 tháng so với DV để khoảng thời gian họ dự đoán là t + 24. Điều này giả định rằng bạn có đủ số ngày để khởi tạo mô hình và hiệu chỉnh bất kỳ tính thời vụ nào có liên quan, nếu phù hợp.


Tôi đã chỉnh sửa văn bản của tôi. Bạn có thể trả lời câu hỏi của tôi bây giờ?
SB

Cho rằng bạn có đủ lượng thông tin, có nhiều cách để tích hợp thời gian vào mô hình của bạn. Bạn có thể tạo các biến giả cho các năm (ví dụ: 2009, 2010, v.v.), cho các quý, cho mỗi tháng trong chuỗi thời gian hoặc, như một cách tiếp cận để tính toán theo mùa, mỗi tháng trong năm. Một cách tiếp cận khác là coi thời gian là hàm xu hướng số, ví dụ: tuyến tính (như trong một số giai đoạn bắt đầu bằng tháng 1 năm 2009 = 1, tháng 2 = 2, v.v.) hoặc bất kỳ số xu hướng đa thức nào dựa trên xu hướng tuyến tính, ví dụ: bậc hai (bình phương xu hướng bình phương) trở lên. Bạn còn muốn biết gì nữa không?
Mike Hunter

Nhưng thời gian không thể là một biến độc lập phải không? Vậy làm thế nào tôi có thể dự đoán biến y của mình bằng 3 biến ngoài? Tôi đang có một thời gian khó khăn thực sự lựa chọn một mô hình sẽ làm dự đoán?
SB

Như đã nêu trong nhận xét trước, thời gian sẽ là một biến độc lập. Tôi nghĩ rằng bạn cần phải đọc lên hồi quy, kinh tế lượng và văn học chuỗi thời gian. Có nhiều chủ đề trên trang web này giải quyết những câu hỏi này và đề xuất các bài viết, sách, v.v. Duyệt qua phía bên phải của trang web này để biết thêm các chủ đề liên quan đến mối quan tâm của bạn.
Mike Hunter

Tôi đã đọc rất nhiều và tôi không thể đưa ra giải pháp. Đó là lý do mà tôi đã hỏi câu hỏi này ở đây. Bạn có thể đặt tên cho một số chủ đề của một số tài liệu mà tôi có thể sử dụng? Hoặc đúng trang web?
SB

1

Theo tôi thấy, bạn có ba lựa chọn:

  1. Sử dụng một dự báo được công bố cho các biến độc lập của bạn hoặc tìm một mô hình để dự báo chúng. Ví dụ, điều tra dân số sẽ có dự báo dữ liệu dân số.
  2. Sử dụng tập dữ liệu mà bạn có, hồi quy từng biến độc lập theo thời gian và sau đó sử dụng các kết quả này mô hình dự báo của bạn cho các biến độc lập
  3. Bỏ các biến độc lập và chỉ mô hình biến phụ thuộc của bạn là hàm của thời gian và giá trị độ trễ của y.

Mỗi cách tiếp cận có điểm mạnh và điểm yếu riêng, vì vậy tốt nhất phụ thuộc vào bối cảnh cụ thể.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.