Điểm phân tích chuỗi thời gian là gì?


29

Điểm phân tích chuỗi thời gian là gì?

Có rất nhiều phương pháp thống kê khác, như hồi quy và học máy, có các trường hợp sử dụng rõ ràng: hồi quy có thể cung cấp thông tin về mối quan hệ giữa hai biến, trong khi học máy rất tốt cho dự đoán.

Nhưng trong khi đó, tôi không thấy phân tích chuỗi thời gian nào là tốt. Chắc chắn, tôi có thể phù hợp với một mô hình ARIMA và sử dụng nó để dự đoán, nhưng điều tốt là gì khi khoảng tin cậy cho dự đoán đó sẽ rất lớn? Có một lý do không ai có thể dự đoán thị trường chứng khoán mặc dù nó là ngành công nghiệp dựa trên dữ liệu nhiều nhất trong lịch sử thế giới.

Tương tự như vậy, làm thế nào để tôi sử dụng nó để hiểu thêm về quá trình của tôi? Chắc chắn, tôi có thể vẽ ACF và đi "aha! Có một số sự phụ thuộc!", Nhưng sau đó thì sao? Vấn đề ở đây là gì? Tất nhiên có sự phụ thuộc, đó là lý do tại sao bạn bắt đầu phân tích chuỗi thời gian. Bạn đã biết có sự phụ thuộc . Nhưng bạn sẽ sử dụng nó để làm gì?


13
Có những trường hợp sử dụng khác ngoài tài chính và kinh tế nơi chúng hoạt động tốt.
dùng2974951

29
Bạn không thể dự đoán thị trường chứng khoán bằng cách sử dụng các phương pháp thống kê và học máy khác, điều này có làm cho chúng trở nên vô dụng không ..?
Tim

16
Bạn dường như ngụ ý ARIMA không phải là một hình thức hồi quy. Nó là.
Firebug

10
Tôi nghĩ rằng đây là một câu hỏi hay, ngay cả khi câu trả lời có vẻ hiển nhiên đối với các chuyên gia.
gung - Phục hồi Monica

6
Tôi cầu xin khác với @gung và những người khác, bởi vì ít nỗ lực nghiên cứu nhất sẽ trả lời nó.
whuber

Câu trả lời:


54

Một sử dụng chính là . Tôi đã nuôi gia đình tôi hơn một thập kỷ nay bằng cách dự báo có bao nhiêu đơn vị sản phẩm cụ thể mà siêu thị sẽ bán vào ngày mai, để anh ta có thể đặt hàng đủ hàng, nhưng không quá nhiều. Có tiền trong này.

Các trường hợp sử dụng dự báo khác được đưa ra trong các ấn phẩm như Tạp chí Dự báo Quốc tế hoặc Tầm nhìn xa . (Tiết lộ đầy đủ: Tôi là Phó Tổng biên tập của Tầm nhìn xa .)

Vâng, đôi khi là rất lớn. (Tôi giả sử bạn có nghĩa là PI, không phải . Có một sự khác biệt. ) Điều này đơn giản có nghĩa là quá trình này khó dự đoán. Sau đó, bạn cần giảm nhẹ. Trong dự báo doanh số siêu thị, điều này có nghĩa là bạn cần rất nhiều cổ phiếu an toàn. Trong dự báo mực nước biển tăng, điều này có nghĩa là bạn cần xây dựng những con đê cao hơn. Tôi muốn nói rằng một khoảng dự đoán lớn sẽ cung cấp thông tin hữu ích.

Và cho tất cả các trường hợp sử dụng dự báo, là hữu ích, mặc dù dự báo là một chủ đề lớn hơn. Bạn thường có thể cải thiện dự báo bằng cách tính đến các phụ thuộc trong chuỗi thời gian của mình, vì vậy bạn cần hiểu chúng thông qua phân tích, điều này cụ thể hơn là chỉ biết phụ thuộc ở đó.

Thêm vào đó, mọi người quan tâm đến chuỗi thời gian ngay cả khi họ không dự báo. Các nhà kinh tế lượng muốn phát hiện các điểm thay đổi trong chuỗi thời gian kinh tế vĩ mô. Hoặc đánh giá tác động của một can thiệp, chẳng hạn như thay đổi luật thuế, đối với GDP hoặc một cái gì đó khác. Bạn có thể muốn lướt qua tạp chí kinh tế lượng yêu thích của bạn để có thêm cảm hứng.


14
+1. Nó là hữu ích ở nơi khác là tốt. Thực hiện phân tích chuỗi thời gian chắc chắn sẽ cảnh báo bạn về các sự kiện (bạn không biết) có ảnh hưởng đến kết quả mà bạn quan tâm. Tôi và tất cả các đồng nghiệp của tôi đã hoàn toàn choáng váng khi thấy chúng tôi nói chung là tồi tệ hơn về phân tích hóa học sản phẩm vào buổi sáng thứ ba. Chúng tôi đã theo dõi nó trở lại một lịch trình làm sạch có chủ ý tốt có một số điểm yếu. Chúng tôi đã tiết kiệm trong một năm gần một triệu và cải thiện ppk sản phẩm từ 1.7 lên 1.9. Bài học rút ra: luôn luôn thực hiện phân tích chuỗi thời gian thô sơ về bất kỳ vấn đề đóng khung biến thể nào.
Stian Yttervik

+1. @Stephan Kolassa, câu trả lời của bạn nêu bật cách dự báo được sử dụng trong thế giới thực, đó là cách giải thích của tôi về câu hỏi của OP. Khoảng thời gian dự đoán và (một nửa) chính xác là thông tin bạn quan tâm để hoạch định chiến lược giảm thiểu. Nếu bạn đang xây dựng đê để ngăn Manhattan tràn vào và phương pháp chuỗi thời gian mới của bạn giảm đủ khoảng dự đoán, bạn có thể giảm chi phí xây dựng đê bằng cách chỉ sử dụng các tài nguyên cần thiết. Mutatis mutandis áp dụng cho ví dụ tạp hóa của bạn.
Lucas Roberts

13

Các mục tiêu trong Phân tích TS từ các slide bài học của M. Dettling:

1) Phân tích thăm dò: Trực quan hóa các thuộc tính của loạt

  • cốt truyện chuỗi thời gian
  • phân tách thành xu hướng / mô hình theo mùa / lỗi ngẫu nhiên
  • tương quan để hiểu cấu trúc phụ thuộc

2) Mô hình hóa: Ghép mô hình ngẫu nhiên vào dữ liệu thể hiện và phản ánh các thuộc tính quan trọng nhất của chuỗi

  • thực hiện thăm dò hoặc với kiến ​​thức trước đó
  • lựa chọn mô hình và ước lượng tham số là rất quan trọng
  • suy luận: làm thế nào tốt mô hình phù hợp với dữ liệu?

3) Dự báo: Dự đoán các quan sát trong tương lai với thước đo độ không chắc chắn

  • chủ yếu dựa trên mô hình, sử dụng phụ thuộc và dữ liệu quá khứ
  • là một phép ngoại suy, do đó thường được thực hiện với một hạt muối
  • tương tự như lái xe bằng cách nhìn vào gương cửa sổ phía sau

4) Kiểm soát quy trình: Đầu ra của quy trình (vật lý) xác định chuỗi thời gian

  • một mô hình ngẫu nhiên được trang bị cho dữ liệu quan sát
  • điều này cho phép hiểu cả tín hiệu và tiếng ồn
  • có thể theo dõi biến động bình thường / bất thường

5) Hồi quy chuỗi thời gian: Mô hình hóa chuỗi thời gian phản hồi bằng cách sử dụng 1 hoặc nhiều chuỗi đầu vào Lắp mô hình này theo giả định lỗi iid:

  • dẫn đến ước tính không thiên vị, nhưng ...
  • thường sai hoàn toàn sai tiêu chuẩn
  • do đó, khoảng tin cậy và kiểm tra là sai lệch

Về vấn đề đánh dấu chứng khoán:

  • Những TS này rất dễ bay hơi, rất khó để mô hình hóa.
  • Ví dụ, một sự thay đổi trong luật liên quan đến công ty có thể dẫn đến thay đổi quy trình TS ... bất kỳ công cụ thống kê nào sẽ dự đoán điều đó?

Về tương quan nối tiếp:

  • Trái ngược với thống kê đa biến, dữ liệu trong một chuỗi thời gian thường không phải là iid, nhưng có mối tương quan huyết thanh.
  • Thông tin này cũng có thể hữu ích để phát hiện thứ gì đó không phải là iid, thứ được cho là, ví dụ như một dụng cụ phòng thí nghiệm bẩn

1
Tôi sẽ thêm phân loại, ví dụ, có rất nhiều ứng dụng nhận ra hoạt động của bạn dựa trên việc phân tích dữ liệu gia tốc của điện thoại.
SaiBot

Nó thật thú vị! Làm thế nào để bạn làm điều này?
Nicole Origami Fox

1
Tôi nghĩ rằng có nhiều cách khác nhau. Một cách sẽ là cho phép người dùng tạo dữ liệu đào tạo bằng cách dán nhãn cho hoạt động của họ. Khi bạn đã có điều đó, bạn có thể cắt các khoảng thời gian của mình theo các khoảng (chồng chéo) (ví dụ: 3 giây) và huấn luyện một mô hình học máy. Sau đó, bạn sẽ có thể phân loại các hoạt động không nhãn.
SaiBot

Cảm ơn SaiBot. Tôi hiểu rồi, tôi phải xem xét sự kết hợp của các công cụ khác nhau thường xuyên hơn :)
Nicole Origami Fox

11

Cách dễ nhất để trả lời câu hỏi của bạn là hiểu rằng đại khái là các bộ dữ liệu thường được phân loại thành mặt cắt ngang , chuỗi thời gianbảng điều khiển . Hồi quy cắt ngang là một công cụ đi đến các bộ dữ liệu cắt ngang. Đây là những gì hầu hết mọi người biết và đề cập đến với một hồi quy hạn . Hồi quy chuỗi thời gian đôi khi được áp dụng cho chuỗi thời gian, nhưng phân tích chuỗi thời gian có một loạt các công cụ vượt ra ngoài hồi quy.

(x1,y1),(x2,y3),,(xn,yn)xi,yiyxy^x

enter image description here

Nếu mẫu không ngẫu nhiên, thì hồi quy có thể không hoạt động. Chẳng hạn, bạn chỉ chọn các nữ sinh lớp một để ước tính mô hình, nhưng bạn phải dự đoán chiều cao của một học sinh lớp 12 nam. Vì vậy, hồi quy có vấn đề riêng của nó ngay cả trong thiết lập cắt ngang.

xt,yt(x1,y1),(x2,y3),Giáo dục,(xn,yn)tx,y

enter image description here

t được ra lệnh. Vì vậy, mẫu của bạn không phải là ngẫu nhiên và tôi đã đề cập trước đó rằng hồi quy thích một mẫu ngẫu nhiên để hoạt động đúng. Đây là một vấn đề nghiêm trọng. Dữ liệu chuỗi thời gian có xu hướng liên tục, ví dụ chiều cao của bạn trong tháng này tương quan cao với chiều cao của bạn vào tháng tới. Để đối phó với những vấn đề này, phân tích chuỗi thời gian đã được phát triển, nó cũng bao gồm kỹ thuật hồi quy, nhưng nó phải được sử dụng theo những cách nhất định.

Loại dữ liệu phổ biến thứ ba là một bảng điều khiển, đặc biệt, một dữ liệu theo chiều dọc thứ iwth. Tại đây, bạn có thể nhận được một số ảnh chụp nhanh về các biến số cân nặng và chiều cao cho một số học sinh. Bộ dữ liệu này có thể trông giống như sóng của các mặt cắt ngang hoặc một chuỗi các chuỗi thời gian.

enter image description here

Đương nhiên, điều này có thể phức tạp hơn hai loại trước đó. Ở đây chúng tôi sử dụng hồi quy bảng và các kỹ thuật đặc biệt khác được phát triển cho các bảng.

Tóm tắt, lý do tại sao hồi quy chuỗi thời gian được coi là một công cụ khác biệt so với hồi quy cắt ngang là chuỗi thời gian đưa ra những thách thức độc đáo khi nói đến các giả định độc lập của kỹ thuật hồi quy. Đặc biệt, do thực tế là không giống như trong phân tích cắt ngang, thứ tự quan sát có vấn đề, nó thường dẫn đến tất cả các loại cấu trúc tương quan và phụ thuộc, đôi khi có thể làm mất hiệu lực áp dụng các kỹ thuật hồi quy. Bạn phải đối phó với sự phụ thuộc và đó chính xác là phân tích chuỗi thời gian tốt.

Dự đoán giá tài sản

Ngoài ra, bạn đang lặp lại một quan niệm sai lầm phổ biến về thị trường chứng khoán và giá tài sản nói chung, rằng chúng không thể dự đoán được. Tuyên bố này quá chung chung là đúng. Đúng là bạn không thể dự đoán hoàn toàn đánh dấu AAPL tiếp theo một cách đáng tin cậy. Tuy nhiên, đó là một vấn đề rất hẹp. Nếu bạn mở rộng mạng lưới của mình, bạn sẽ khám phá ra rất nhiều cơ hội kiếm tiền bằng cách sử dụng cho tất cả các loại dự báo (đặc biệt là phân tích chuỗi thời gian). Trọng tài thống kê là một trong những lĩnh vực như vậy.

Bây giờ, lý do tại sao giá tài sản là khó dự đoán trong thời gian tới là do thực tế là một thành phần lớn của thay đổi giá là thông tin mới. Thông tin thực sự mới mà không thể được đưa ra thực tế từ quá khứ là theo định nghĩa không thể dự đoán. Tuy nhiên, đây là một mô hình lý tưởng hóa, và rất nhiều người sẽ cho rằng sự bất thường tồn tại cho phép sự tồn tại của nhà nước. Điều này có nghĩa là một phần của sự thay đổi giá có thể được giải thích bởi quá khứ. Trong những trường hợp như vậy, phân tích chuỗi thời gian là khá phù hợp bởi vì nó chính xác liên quan đến sự kiên trì. Nó tách biệt mới với cũ, mới là không thể dự đoán, nhưng cũ được kéo từ quá khứ vào tương lai. Nếu bạn có thể giải thích dù chỉ một chút, về tài chính, điều đó có nghĩa là bạn có thểcó thể kiếm tiền Miễn là giá của chiến lược được xây dựng dựa trên dự báo như vậy sẽ bao gồm thu nhập do nó tạo ra.

Cuối cùng, hãy xem giải thưởng cao quý về kinh tế năm 2013 : "hoàn toàn có thể thấy trước quá trình rộng rãi của các mức giá này trong thời gian dài hơn, chẳng hạn như ba đến năm năm tới." Hãy xem bài giảng cao quý của Shiller , ông thảo luận về khả năng dự báo giá tài sản.


6

Phân tích chuỗi thời gian cũng có thể góp phần vào sự bất thường hiệu quả hoặc phát hiện ngoại lệ trong dữ liệu thời gian.

Ví dụ, có thể điều chỉnh mô hình ARIMA và tính toán khoảng thời gian dự báo. Tùy thuộc vào trường hợp sử dụng, khoảng thời gian có thể được sử dụng để đặt ngưỡng, trong đó quy trình có thể được cho là trong tầm kiểm soát; nếu dữ liệu mới nằm ngoài ngưỡng, nó sẽ được gắn cờ để được chú ý thêm.

Bài đăng trên blog này có một tổng quan ngắn gọn và rộng về phân tích chuỗi thời gian để phát hiện ngoại lệ. Để điều trị sâu hơn, các nhà nghiên cứu tại ebay giải thích cách họ tiến hành phát hiện dị thường ở quy mô dựa trên phân tích thống kê dữ liệu chuỗi thời gian.


6

Có rất nhiều phương pháp thống kê khác, như hồi quy và học máy, có các trường hợp sử dụng rõ ràng: hồi quy có thể cung cấp thông tin về mối quan hệ giữa hai biến, trong khi học máy rất tốt cho dự đoán.

Bạn trả lời câu hỏi của riêng bạn, dưới đây: autocorrelation. Chuỗi thời gian thường có nó, vi phạm một giả định về hồi quy OLS cơ bản. Kỹ thuật chuỗi thời gian có các giả định thích hợp cho chuỗi thời gian.

Các phương pháp học máy xử lý dữ liệu tuần tự là chuyên biệt, như mạng thần kinh tái phát (RNNs) hoặc mạng thần kinh tích chập 1-D (CNN), do đó bạn vẫn có các kỹ thuật chuyên dụng cho chuỗi thời gian.

Nhưng trong khi đó, tôi không thấy phân tích chuỗi thời gian nào là tốt. Chắc chắn, tôi có thể phù hợp với một mô hình ARIMA và sử dụng nó để dự đoán, nhưng điều tốt là gì khi khoảng tin cậy cho dự đoán đó sẽ rất lớn? Có một lý do không ai có thể dự đoán thị trường chứng khoán mặc dù nó là ngành công nghiệp dựa trên dữ liệu nhiều nhất trong lịch sử thế giới.

Khoảng tin cậy (CIs) do kỹ thuật chuỗi thời gian có thể sẽ lớn hơn so với các khoảng từ hồi quy không theo chuỗi thời gian. Tính năng này được gọi là chính xác. Nói chung, khi bạn sử dụng hồi quy không theo chuỗi thời gian, CI của bạn sẽ nhỏ hơn nhưng không chính xác vì bạn đã vi phạm các giả định của nó. Nếu tất cả những gì bạn muốn làm là trình bày một biểu đồ với các CI nhỏ tạo ra chúng hoặc bỏ qua hoàn toàn CI, nhưng nếu bạn muốn các TCTD phù hợp, hãy sử dụng các kỹ thuật phù hợp.

Thị trường chứng khoán rất khó dự đoán vì bản chất của nó. Chuỗi thời gian khác là nhiều dự đoán hơn nhiều. Hãy thử sử dụng kỹ thuật lựa chọn máy học của bạn trong thị trường chứng khoán và tôi nghi ngờ bạn sẽ có nhiều thành công hơn.

Tương tự như vậy, làm thế nào để tôi sử dụng nó để hiểu thêm về quá trình của tôi? Chắc chắn, tôi có thể vẽ ACF và đi "aha! Có một số sự phụ thuộc!", Nhưng sau đó thì sao? Vấn đề ở đây là gì? Tất nhiên có sự phụ thuộc, đó là lý do tại sao bạn bắt đầu phân tích chuỗi thời gian. Bạn đã biết có sự phụ thuộc. Nhưng bạn sẽ sử dụng nó để làm gì?

Dự đoán. Để xem tính thời vụ. Để có một ý tưởng về sự thay đổi của dữ liệu qua các mùa khác nhau. Chưa kể rằng có nhiều kỹ thuật chuỗi thời gian mạnh mẽ hơn ARIMA trường học cũ, như các phương pháp Không gian Nhà nước. ARIMA không phải là kỹ thuật tốt nhất để lập mô hình chuỗi thời gian. (Trên thực tế, quy trình ARIMA trong phần mềm thống kê mà bạn lựa chọn có thể đang sử dụng biểu diễn Trạng thái Không gian dưới mui xe.)


5

Để thêm một số màu cho câu trả lời phát hiện bất thường của redhqs, tại nơi làm việc, tôi xây dựng các mô hình phát hiện bất thường cho các số liệu hoạt động như doanh số và lưu lượng truy cập. Chúng tôi thực hiện phân tích chuỗi thời gian để hiểu doanh số nên là gì nếu mọi thứ hoạt động như mong đợi, và sau đó so sánh các giá trị này với các giá trị quan sát để xem liệu trang web có bị hỏng hay không. Điều này rất quan trọng vì cứ sau mỗi phút trang web ngừng hoạt động, chúng tôi lại mất rất nhiều tiền.

Có nhiều phương pháp khác nhau mà bạn có thể sử dụng và các phương pháp khác nhau cố gắng thực hiện những điều khác nhau trong nhiều trường hợp. Ví dụ, phương pháp thống kê chính mà tôi đã sử dụng để phát hiện sự bất thường trong bán hàng được gọi là "STL" (phân tách xu hướng theo mùa bằng cách sử dụng hoàng thổ). Điều này phân tách tính thời vụ thường xuyên, xu hướng và tiếng ồn ngẫu nhiên. Chúng tôi thực sự sử dụng điều này để xác định cả thời vụ hàng ngày và hàng tuần. Sau đó, chúng tôi loại bỏ tiếng ồn và kết hợp xu hướng / thời vụ để ước tính doanh số dự kiến. Vì vậy, trong trường hợp của chúng tôi, chúng tôi sử dụng cách tiếp cận để hiểu cách bán hàng thay đổi theo thời gian trong ngày và thời gian trong tuần và để loại trừ tiếng ồn ngẫu nhiên khỏi các ước tính.


Dường như bạn xây dựng các mô hình chuỗi thời gian giả định rằng không có sự bất thường nào, do đó có thể không mạnh mẽ như trái ngược với các chiến lược nhận dạng mô hình cho phép xác định đồng thời cả dự đoán SARIMA và chờ đợi để được phát hiện Cấu trúc can thiệp (Xung, mức / bước dịch chuyển , xung theo mùa, xu hướng giờ địa phương)
IrishStat

Thuật toán STL có một cờ mạnh mẽ (nó kiểm soát số lần lặp của một vòng lặp làm mịn). Nó hoạt động rất tốt cho chuỗi thời gian của chúng tôi nào.
Willie Wheeler

# lần lặp không xử lý sai lệch ở dạng mô hình nếu có cấu trúc xác định đang chờ được khám phá.
IrishStat

3

Ngoài những câu trả lời xuất sắc do người khác cung cấp, tôi muốn bình luận về cách phân tích chuỗi thời gian được sử dụng trong kỹ thuật điện.

Một phần lớn của kỹ thuật điện bao gồm các điện áp và dòng điện điều biến để truyền thông tin hoặc sử dụng các cảm biến để chuyển đổi tín hiệu vật lý (như sóng âm thanh) thành dạng điện, từ đó máy tính dự kiến ​​sẽ đưa ra quyết định. Bộ chuyển đổi tương tự sang số (A / D) chuyển các tín hiệu này thành một tập hợp các mẫu riêng biệt (theo thời gian) cách đều nhau hoặc theo chuỗi thời gian! Phương pháp phân tích chuỗi thời gian là cơ sở của hầu hết các thuật toán xử lý tín hiệu hiện đại.

Ví dụ, xử lý giọng nói bao gồm sử dụng micrô để chuyển đổi sóng âm thành điện áp, được lấy mẫu bằng A / D, sau đó mô hình chuỗi thời gian của tín hiệu được tạo. Ví dụ, các bộ mã hóa dự báo tuyến tính (LPC) trong điện thoại di động tạo ra một mô hình ARMA của các từ được nói và truyền các hệ số mô hình (cùng với một chỉ số biểu thị tín hiệu kích thích từ một từ điển được xác định trước) thay vì chính các mẫu dữ liệu để đạt được nén dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.