Phương pháp tốt nhất cho chuỗi thời gian ngắn


35

Tôi có một câu hỏi liên quan đến mô hình chuỗi thời gian ngắn. Nó không phải là một câu hỏi nếu để mô hình hóa chúng , nhưng làm thế nào. Phương pháp nào bạn muốn giới thiệu cho mô hình chuỗi thời gian ngắn (rất) (nói về độ dài )? "Tốt nhất" tôi muốn nói ở đây là người mạnh mẽ nhất, đó là người ít mắc lỗi nhất do thực tế là số lượng quan sát hạn chế. Với các quan sát đơn lẻ ngắn có thể ảnh hưởng đến dự báo, vì vậy phương pháp này sẽ cung cấp ước tính thận trọng về các lỗi và khả năng thay đổi có thể liên quan đến dự báo. Tôi thường quan tâm đến chuỗi thời gian đơn biến nhưng cũng rất thú vị khi biết về các phương pháp khác.T20


Đơn vị thời gian là gì? Bạn có thể đăng dữ liệu?
Dimitriy V. Masterov

8
Bất cứ giả định nào bạn đưa ra - liên quan đến tính thời vụ, văn phòng phẩm, & c. - một chuỗi thời gian ngắn sẽ cho bạn cơ hội phát hiện chỉ những vi phạm trắng trợn nhất; vì vậy các giả định nên có cơ sở trong kiến ​​thức tên miền. Bạn có cần phải lập mô hình hoặc chỉ để đưa ra dự báo? Cuộc thi M3 đã so sánh các phương pháp dự báo "tự động" khác nhau trên loạt từ nhiều lĩnh vực khác nhau, một số ngắn như 20.
Scortchi - Tái lập Monica

5
+1 để bình luận của @ Scortchi. Ngẫu nhiên, trong số 3.003 loạt M3 (có sẵn trong Mcompgói cho R), 504 có 20 hoặc ít hơn các quan sát, cụ thể là 55% của loạt hàng năm. Vì vậy, bạn có thể tra cứu ấn phẩm gốc và xem những gì hoạt động tốt cho dữ liệu hàng năm. Hoặc thậm chí đào qua các dự báo ban đầu được gửi tới cuộc thi M3, có sẵn trong Mcompgói (danh sách M3Forecast).
S. Kolassa - Tái lập Monica

Xin chào, tôi sẽ không thêm bất cứ điều gì vào câu trả lời, nhưng chỉ chia sẻ điều gì đó về câu hỏi mà tôi hy vọng nó có thể giúp người khác hiểu vấn đề ở đây: khi bạn nói mạnh mẽ, đó là lỗi ít xảy ra nhất do thực tế bị hạn chế số lượng quan sát . Tôi tin rằng sự mạnh mẽ là một khái niệm quan trọng trong các số liệu thống kê và ở đây nó rất quan trọng vì có quá ít dữ liệu mà bất kỳ sự phù hợp mô hình nào sẽ phụ thuộc mạnh mẽ vào các giả định của chính mô hình hoặc các ngoại lệ. Với sự mạnh mẽ, bạn làm cho các ràng buộc này bớt mạnh mẽ hơn, không cho phép giả định giới hạn kết quả của bạn. Tôi hi vọng cái này giúp được.
Tommaso Guerrini

2
Các phương pháp mạnh mẽ của @TommasoGuerrini không tạo ra ít giả định hơn, chúng tạo ra các giả định khác nhau.
Tim

Câu trả lời:


31

Nó là rất phổ biến đối với các phương pháp dự báo cực kỳ đơn giản như "dự báo trung bình lịch sử" để làm tốt hơn các phương pháp phức tạp hơn. Điều này thậm chí nhiều khả năng cho chuỗi thời gian ngắn. Có, về nguyên tắc, bạn có thể điều chỉnh mô hình ARIMA hoặc thậm chí phức tạp hơn với 20 lần quan sát hoặc ít hơn, nhưng bạn sẽ có khả năng phù hợp hơn và nhận được dự báo rất xấu.

Vì vậy: bắt đầu với một điểm chuẩn đơn giản, ví dụ:

  • ý nghĩa lịch sử
  • trung vị lịch sử cho sự mạnh mẽ thêm
  • đi bộ ngẫu nhiên (dự báo quan sát cuối cùng ra)

Đánh giá những điều này trên dữ liệu ngoài mẫu. So sánh bất kỳ mô hình phức tạp hơn với các điểm chuẩn. Bạn có thể ngạc nhiên khi thấy nó khó như thế nào để vượt trội hơn các phương pháp đơn giản này. Ngoài ra, hãy so sánh độ mạnh của các phương pháp khác nhau với các phương pháp đơn giản này, ví dụ, bằng cách không chỉ đánh giá độ chính xác trung bình ngoài mẫu, mà còn cả phương sai lỗi , sử dụng thước đo lỗi yêu thích của bạn .

Vâng, như Rob Hyndman viết trong bài đăng của mình rằng Alexanderr liên kết đến , thử nghiệm ngoài mẫu là một vấn đề trong chính nó cho loạt ngắn - nhưng thực sự không có sự thay thế tốt. ( Không sử dụng sự phù hợp trong mẫu, không có hướng dẫn để dự báo độ chính xác .) AIC sẽ không giúp bạn đi bộ trung bình và đi bộ ngẫu nhiên. Tuy nhiên , dù sao đi nữa , bạn có thể sử dụng xác thực chéo chuỗi thời gian , mà AIC gần đúng.


Chỉ cần phát hiện ra câu trả lời của bạn (+1). Tôi đã đưa ra một nhận xét khác, trong trường hợp bạn quan tâm và muốn làm rõ.
Alexanderr Blekh

17

Tôi lại sử dụng một câu hỏi như một cơ hội để tìm hiểu thêm về chuỗi thời gian - một trong (nhiều) chủ đề mà tôi quan tâm. Sau một nghiên cứu ngắn, dường như tồn tại một số cách tiếp cận vấn đề mô hình hóa chuỗi thời gian ngắn.

Cách tiếp cận đầu tiên là sử dụng các mô hình chuỗi thời gian chuẩn / tuyến tính (AR, MA, ARMA, v.v.), nhưng chú ý đến một số tham số nhất định, như được mô tả trong bài này [1] bởi Rob Hyndman, người không cần giới thiệu trong chuỗi thời gian và thế giới dự báo. Cách tiếp cận thứ hai, được đề cập bởi hầu hết các tài liệu liên quan mà tôi đã thấy, đề nghị sử dụng các mô hình chuỗi thời gian phi tuyến tính , đặc biệt là các mô hình ngưỡng [2], bao gồm mô hình tự phát ngưỡng (TAR) , TAR tự thoát ( SETAR) , mô hình trung bình di chuyển tự động ngưỡng (TARMA) và mô hình TARMAX , mở rộng TARmô hình để chuỗi thời gian ngoại sinh. Tổng quan tuyệt vời của các mô hình chuỗi thời gian phi tuyến tính, bao gồm các mô hình ngưỡng, có thể được tìm thấy trong bài báo này [3] và bài báo này [4].

Cuối cùng, một bài nghiên cứu khác liên quan đến IMHO [5] mô tả một cách tiếp cận thú vị, dựa trên đại diện của Volterra-Weiner của các hệ thống phi tuyến tính - xem điều này [6] và điều này [7]. Cách tiếp cận này được cho là vượt trội so với các kỹ thuật khác trong bối cảnh chuỗi thời gian ngắn và ồn ào .

Tài liệu tham khảo

  1. Hyndman, R. (ngày 4 tháng 3 năm 2014). Lắp mô hình cho chuỗi thời gian ngắn. [Bài viết trên blog]. Lấy từ http://robjhyndman.com/hyndsight/short-time-series
  2. Đại học Bang Pennsylvania. (2015). Mô hình ngưỡng. [Tài liệu khóa học trực tuyến]. STAT 510, Phân tích chuỗi thời gian áp dụng. Lấy từ https://onlinecferences.science.psu.edu/stat510/node/82
  3. Trục, E. (2006). Mô hình chuỗi thời gian phi tuyến tính. [Ghi chú lớp]. ECON 584, Kinh tế lượng chuỗi thời gian. Đại học Washington. Lấy từ http://facemony.washington.edu/ezOLL/econ584/notes/nonlinear.pdf
  4. Chen, CWS, Vì vậy, MKP, & Liu, F.-C. (2011). Một đánh giá của các mô hình chuỗi thời gian ngưỡng trong tài chính. Thống kê và giao diện của nó, 4 , 167 Từ181. Lấy từ http://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdf
  5. Barahona, M., & Poon, C.-S. (1996). Phát hiện động lực phi tuyến của chuỗi thời gian ngắn, ồn ào. Thiên nhiên, 381 , 215-217. Lấy từ http://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDF
  6. Franz, MO (2011). Dòng Volterra và Wiener. Học giả, 6 (10): 11307. Lấy từ http://www.scholarpedia.org/article/Volterra_and_Wiener_series
  7. Franz, MO, & Scholkopf, B. (nd). Một quan điểm thống nhất về lý thuyết Wiener và Volterra và hồi quy hạt nhân đa thức. Lấy từ http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdf

4
+1 Bạn có phiền khi viết ra các tài liệu tham khảo cho các bài viết này trong câu trả lời của bạn không? Gần đây, chúng tôi đã phát hiện ra rằng nhiều liên kết đến các bài báo bị thối rữa sau một thời gian, cuối cùng làm cho chúng gần như vô dụng trừ khi các tác giả giấy, tiêu đề, v.v. cũng được đề cập trong văn bản.
whuber

2
@whuber: Cảm ơn. Không có vấn đề gì cả, tôi sẽ cập nhật câu trả lời của tôi với các tài liệu tham khảo tối nay.
Alexanderr Blekh

2
+1 cho liên kết đến bài đăng của Rob Hyndman. (Tuy nhiên, tôi rất muốn -1 cho các mô hình phức tạp. Tôi cực kỳ cảnh giác khi sử dụng ngưỡng hoặc bất kỳ phương pháp chuỗi thời gian phi tuyến nào khác trên chuỗi thời gian dưới 20 lần quan sát. Bạn gần như chắc chắn phản ứng quá mức, đi ngược lại trực tiếp theo yêu cầu của OP về một phương pháp mạnh mẽ .)
S. Kolassa - Tái lập Monica

3
[2,3,4] không đề cập đến chuỗi thời gian ngắn và xem xét các ô trong [2]:> 120 quan sát. [4] tập trung vào tài chính, nơi bạn có hơn 20 quan sát. [5] viết về "chuỗi thời gian ngắn, thường dài 1.000 điểm" (trang 216). Tôi thấy không có cách nào phù hợp một cách đáng tin cậy và mạnh mẽ với một mô hình TAR hoặc mô hình tương tự, hoặc bất kỳ mô hình nào phức tạp hơn mà bạn liên kết đến, với <20 quan sát. (BTW: Tôi cũng thực hiện một số thống kê suy luận ở bên cạnh và với ít hơn 20 quan sát, bạn thực sự không thể ước tính nhiều hơn giá trị trung bình và thêm một tham số.)
S. Kolassa - Tái lập lại

5
Bạn được chào đón ;-) Tôi đoán rằng điều đó là "ngắn" phụ thuộc vào ngữ cảnh: đối với chuỗi đọc cảm biến hoặc trong tài chính, 1000 điểm dữ liệu là "ngắn" - nhưng trong quản lý chuỗi cung ứng, 20 quan sát hàng tháng là gần như bình thường và "ngắn" sẽ chỉ bắt đầu ở mức 12 hoặc ít hơn các quan sát.
S. Kolassa - Tái lập Monica

11

T20

Theo các phương pháp định tính hoạt động tốt trong thực tế cho rất ngắn hoặc không có dữ liệu:

  • Dự báo tổng hợp
  • Khảo sát
  • phương pháp Delphi
  • Xây dựng kịch bản
  • Dự báo bằng cách tương tự
  • Ý kiến ​​điều hành

Một trong những phương pháp tốt nhất mà tôi biết là hoạt động rất tốt là sử dụng các chất tương tự có cấu trúc (thứ 5 trong danh sách ở trên) nơi bạn tìm kiếm các sản phẩm tương tự / tương tự trong danh mục mà bạn đang cố gắng dự báo và sử dụng chúng để dự báo dự báo ngắn hạn . Xem bài viết này để biết ví dụ và bài viết của SAS về "cách" thực hiện điều này bằng cách sử dụng khóa học SAS. Một hạn chế là dự báo bằng các phép loại suy sẽ chỉ có tác dụng với bạn có các phép tương tự tốt nếu không bạn có thể dựa vào dự báo phán đoán. Dưới đây là một video khác từ phần mềm Dự báo về cách sử dụng một công cụ như Dự báo để thực hiện dự báo bằng cách tương tự. Chọn một sự tương tự là nghệ thuật hơn khoa học và bạn cần có chuyên môn về miền để chọn các sản phẩm / tình huống tương tự.

Hai nguồn tuyệt vời để dự báo sản phẩm ngắn hoặc mới:

  • Nguyên tắc dự báo của Armstrong
  • Dự báo sản phẩm mới của Kahn

Sau đây là nhằm mục đích minh họa. Tôi vừa đọc xong Tín hiệu và Tiếng ồnbởi Nate Silver, trong đó có một ví dụ điển hình về bong bóng và dự đoán thị trường nhà ở của Mỹ và Nhật Bản (tương tự như thị trường Mỹ). Trong biểu đồ bên dưới, nếu bạn dừng lại ở 10 điểm dữ liệu và sử dụng một trong các phương pháp ngoại suy (quét theo cấp số nhân / ets / arima ...) và xem nơi nào sẽ đưa bạn đến và nơi thực sự kết thúc. Một lần nữa, ví dụ tôi trình bày phức tạp hơn nhiều so với phép ngoại suy xu hướng đơn giản. Đây chỉ là để làm nổi bật những rủi ro của ngoại suy xu hướng bằng cách sử dụng các điểm dữ liệu hạn chế. Ngoài ra, nếu sản phẩm của bạn có mẫu theo mùa, bạn phải sử dụng một số dạng tình huống sản phẩm tương tự để dự báo. Tôi đọc một bài báo tôi nghĩ trong Tạp chí Nghiên cứu Kinh doanh rằng nếu bạn có 13 tuần bán sản phẩm trong dược phẩm, bạn có thể dự đoán dữ liệu với độ chính xác cao hơn bằng cách sử dụng các sản phẩm tương tự.

nhập mô tả hình ảnh ở đây


Cảm ơn đã chỉ ra một cách tiếp cận khác! Và tôi đồng ý, cuốn sách Nate Silvers rất tuyệt.
Tim

5

Giả định rằng số lượng quan sát là rất quan trọng xuất phát từ nhận xét trái tay của GEP Box liên quan đến kích thước mẫu tối thiểu để xác định mô hình. Một câu trả lời nhiều sắc thái hơn theo như tôi quan tâm là vấn đề / chất lượng nhận dạng mô hình không chỉ dựa trên kích thước mẫu mà là tỷ lệ tín hiệu so với nhiễu có trong dữ liệu. Nếu bạn có tín hiệu mạnh đến tỷ lệ nhiễu, bạn cần ít quan sát hơn. Nếu bạn có s / n thấp thì bạn cần nhiều mẫu hơn để xác định. Nếu tập dữ liệu của bạn là hàng tháng và bạn có 20 giá trị thì không thể xác định theo mô hình theo mùa theo cách TUYỆT VỜI nếu bạn nghĩ dữ liệu có thể theo mùa thì bạn có thể bắt đầu quy trình lập mô hình bằng cách chỉ định ar (12) và sau đó thực hiện chẩn đoán mô hình ( các thử nghiệm về tầm quan trọng) để giảm hoặc tăng mô hình thiếu cấu trúc của bạn


5

Với dữ liệu rất hạn chế, tôi sẽ có xu hướng phù hợp với dữ liệu bằng các kỹ thuật Bayes.

Văn phòng phẩm có thể là một chút khó khăn khi làm việc với các mô hình chuỗi thời gian Bayes. Một lựa chọn là thực thi các ràng buộc về các tham số. Hoặc, bạn không thể. Điều này là tốt nếu bạn chỉ muốn nhìn vào sự phân phối của các tham số. Tuy nhiên, nếu bạn muốn tạo dự đoán sau, thì bạn có thể có rất nhiều dự báo phát nổ.

Tài liệu Stan cung cấp một vài ví dụ trong đó họ đặt các ràng buộc về các tham số của các mô hình chuỗi thời gian để đảm bảo tính ổn định. Điều này có thể đối với các mô hình tương đối đơn giản mà chúng sử dụng, nhưng nó có thể là khá nhiều không thể trong các mô hình chuỗi thời gian phức tạp hơn. Nếu bạn thực sự muốn thực thi sự ổn định, bạn có thể sử dụng thuật toán Metropolis-Hastings và loại bỏ bất kỳ hệ số nào không phù hợp. Tuy nhiên, điều này đòi hỏi rất nhiều giá trị bản địa được tính toán, điều này sẽ làm mọi thứ chậm lại.


0

Vấn đề như bạn đã chỉ ra một cách khôn ngoan là "quá mức" gây ra bởi các thủ tục dựa trên danh sách cố định. Một cách thông minh là thử và giữ phương trình đơn giản khi bạn có lượng dữ liệu không đáng kể. Tôi đã tìm thấy sau nhiều mặt trăng rằng nếu bạn chỉ cần sử dụng mô hình AR (1) và để tốc độ thích ứng (hệ số ar) cho dữ liệu thì mọi thứ có thể hoạt động tốt. Ví dụ: nếu hệ số ar ước tính gần bằng 0 thì điều này có nghĩa là giá trị trung bình tổng thể sẽ phù hợp. nếu hệ số gần +1.0 thì điều này có nghĩa là giá trị cuối cùng (được điều chỉnh cho hằng số là phù hợp hơn. Nếu hệ số gần với -1 thì âm của giá trị cuối (được điều chỉnh cho hằng số) sẽ là dự báo tốt nhất. Nếu hệ số khác thì có nghĩa là trung bình có trọng số của quá khứ gần đây là phù hợp.

Đây chính xác là những gì AUTOBOX bắt đầu và sau đó loại bỏ sự bất thường vì nó tinh chỉnh tham số ước tính khi gặp phải "số lượng nhỏ các quan sát".

Đây là một ví dụ về "nghệ thuật dự báo" khi cách tiếp cận dựa trên dữ liệu thuần túy có thể không thể áp dụng được.

Sau đây là một mô hình tự động được phát triển cho 12 điểm dữ liệu mà không cần quan tâm đến sự bất thường. nhập mô tả hình ảnh ở đâyvới Actual / Fit và Dự báo ở đây nhập mô tả hình ảnh ở đâyvà cốt truyện còn lại ở đâynhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.