Làm thế nào để thống kê so sánh hai chuỗi thời gian?


43

Tôi có hai chuỗi thời gian, được hiển thị trong cốt truyện dưới đây:

Lô thời gian

Cốt truyện đang hiển thị đầy đủ chi tiết của cả hai chuỗi thời gian, nhưng tôi có thể dễ dàng giảm nó xuống chỉ còn những quan sát trùng hợp nếu cần.

Câu hỏi của tôi là: Tôi có thể sử dụng phương pháp thống kê nào để đánh giá sự khác biệt giữa chuỗi thời gian?

Tôi biết đây là một câu hỏi khá rộng và mơ hồ, nhưng dường như tôi không thể tìm thấy nhiều tài liệu giới thiệu về vấn đề này ở bất cứ đâu. Như tôi có thể thấy, có hai điều khác biệt để đánh giá:

1. Các giá trị có giống nhau không?

2. Các xu hướng có giống nhau không?

Những loại kiểm tra thống kê nào bạn sẽ đề nghị xem xét để đánh giá những câu hỏi này? Đối với câu hỏi 1 rõ ràng tôi có thể đánh giá phương tiện của các bộ dữ liệu khác nhau và tìm kiếm sự khác biệt đáng kể trong phân phối, nhưng có cách nào để thực hiện việc này có tính đến tính chất chuỗi thời gian của dữ liệu không?

Đối với câu hỏi 2 - có điều gì giống như các bài kiểm tra Mann-Kendall tìm kiếm sự tương đồng giữa hai xu hướng không? Tôi có thể thực hiện bài kiểm tra Mann-Kendall cho cả hai tập dữ liệu và so sánh, nhưng tôi không biết liệu đó có phải là cách hợp lệ để thực hiện hay không, liệu có cách nào tốt hơn không?

Tôi đang làm tất cả những điều này trong R, vì vậy nếu các thử nghiệm mà bạn đề xuất có gói R thì vui lòng cho tôi biết.


9
Cốt truyện dường như che khuất những gì có thể là một sự khác biệt quan trọng giữa các loạt này: chúng có thể được lấy mẫu ở các tần số khác nhau. Đường màu đen (Aeronet) dường như chỉ được lấy mẫu khoảng 20 lần và đường màu đỏ (Tầm nhìn) hàng trăm lần trở lên. Một yếu tố quan trọng khác có thể là sự đều đặn của việc lấy mẫu hoặc thiếu nó: thời gian giữa các lần quan sát của Aeronet có vẻ khác nhau một chút. Nói chung, nó giúp xóa các đường kết nối và chỉ hiển thị các điểm tương ứng với dữ liệu thực tế, để người xem có thể xác định những điều này một cách trực quan.
whuber

Dưới đây là một thư viện Python để phân tích chuỗi thời gian không đều nhau.
kjetil b halvorsen

Câu trả lời:


27

Như những người khác đã nêu, bạn cần có một tần số đo lường chung (tức là thời gian giữa các lần quan sát). Với điều đó, tôi sẽ xác định một mô hình chung có thể mô tả hợp lý từng chuỗi riêng biệt. Đây có thể là mô hình ARIMA hoặc Mô hình hồi quy có nhiều xu hướng với các mức dịch chuyển có thể hoặc mô hình tổng hợp tích hợp cả bộ nhớ (ARIMA) và các biến giả. Mô hình chung này có thể được ước tính trên toàn cầu và riêng biệt cho từng chuỗi trong hai chuỗi và sau đó người ta có thể xây dựng một thử nghiệm F để kiểm tra giả thuyết về một bộ tham số chung.


1
Chà, bạn thực sự không cần phải có cùng tần số cho cả hai loạt. Nó chỉ đơn giản là vì vậy giá vé có rất ít phần mềm cho các trường hợp khác, nhưng hãy xem dấu vết.readthedocs.io/en/latest . Có vẻ như nhiều người đã biết về các trường hợp khác trong các tạp chí thiên văn học và trong tài chính và địa vật lý ... xem các ref trong en.wikipedia.org/wiki/Unevenly_spaces_time_series
kjetil b halvorsen 4/11/18

12

Hãy xem xét grangertest()trong thư viện lmtest .

Đây là một thử nghiệm để xem liệu một chuỗi thời gian có hữu ích trong việc dự báo một chuỗi khác hay không.

Một vài tài liệu tham khảo để giúp bạn bắt đầu:

https://spia.uga.edu/facemony_pages/monogan/teaching/ts/

https://spia.uga.edu/facemony_pages/monogan/teaching/ts/Kgranger.pdf

http://en.wikipedia.org/wiki/Granger_causality


1
Kích thước mẫu của anh ta sẽ quá nhỏ với <10 datapoint so với số lượng tham số bạn cần để khớp với Granger.
Jase

1
@fionn, các liên kết trong câu trả lời của bạn đã chết. Bạn có thể cập nhật câu trả lời của bạn?
Davor Josipovic

0

Chỉ cần đi qua điều này. Câu trả lời đầu tiên của bạn cho chúng tôi âm mưu g hai bộ cùng một thang đo (thời gian) để thấy sự khác biệt một cách trực quan. Bạn đã làm điều này và có thể dễ dàng thấy có một số khác biệt rõ ràng. Bước tiếp theo là sử dụng phân tích tương quan đơn giản ... và xem mức độ liên quan của chúng bằng cách sử dụng hệ số tương quan (r). Nếu r nhỏ, kết luận của bạn sẽ là chúng có liên quan yếu và do đó không có so sánh mong muốn và giá trị lớn hơn nếu r sẽ đề xuất so sánh tốt giữa hai chuỗi. Bước thứ ba khi có mối tương quan tốt là kiểm tra ý nghĩa thống kê của r. Ở đây bạn có thể sử dụng thử nghiệm Shapiro Welch, giả sử hai chuỗi được phân phối bình thường (giả thuyết null) hoặc không (giả thuyết thay thế). Có những bài kiểm tra khác bạn có thể làm nhưng hãy để tôi hy vọng câu trả lời của tôi có ích.


1
Khi so sánh chuỗi thời gian, nó là tự tương quan và có thể phù hợp với các mô hình chuỗi thời gian. chẳng hạn như các mô hình ARIMA có thể giúp xác định mức độ giống nhau của chúng. Hai nhận thức của cùng một quá trình ngẫu nhiên không nhất thiết phải giống nhau khi vẽ chúng.
Michael Chernick

-2

Nối một đường thẳng cho cả tín hiệu chuỗi thời gian bằng polyfit. Sau đó, tính toán root-mean-vuông-error (RMSE) cho cả hai dòng. Giá trị thu được cho dòng màu đỏ sẽ khá ít hơn giá trị thu được cho dòng màu xám.

Cũng làm cho các bài đọc về một số tần số phổ biến.


2
Chào mừng bạn đến với Xác thực chéo và cảm ơn câu trả lời đầu tiên của bạn! Tuy nhiên, tôi lo ngại rằng bạn không trả lời trực tiếp câu hỏi - cách tiếp cận được đề xuất chính xác sẽ giúp người hỏi khẳng định liệu các giá trị và / hoặc xu hướng có giống nhau không?
Martin Modrák
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.