Cách sử dụng tương quan Pearson chính xác với chuỗi thời gian


47

Tôi có 2 chuỗi thời gian (cả hai đều trơn tru) mà tôi muốn tương quan chéo để xem mức độ tương quan của chúng.

Tôi dự định sử dụng hệ số tương quan Pearson. Điều này có phù hợp không?

Câu hỏi thứ hai của tôi là tôi có thể chọn lấy mẫu 2 chuỗi thời gian cũng như tôi thích. tức là tôi có thể chọn bao nhiêu điểm dữ liệu tôi sẽ cho chúng tôi. Điều này sẽ ảnh hưởng đến hệ số tương quan là đầu ra? Tôi có cần phải tính đến điều này?

Đối với mục đích minh họa

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  

1
Bản chất của chuỗi thời gian là gì? Họ có đi bộ ngẫu nhiên không? Đứng im, không động đậy? Loạt kinh tế?
Aksakal

Câu trả lời:


72

Tương quan Pearson được sử dụng để xem xét mối tương quan giữa các chuỗi ... nhưng là chuỗi thời gian, mối tương quan được xem xét qua các độ trễ khác nhau - hàm tương quan chéo .

Mối tương quan chéo bị ảnh hưởng bởi sự phụ thuộc trong chuỗi, vì vậy trong nhiều trường hợp, sự phụ thuộc trong chuỗi phải được loại bỏ trước tiên. Vì vậy, để sử dụng mối tương quan này, thay vì làm mịn chuỗi, nó thực sự phổ biến hơn (vì nó có ý nghĩa) để xem xét sự phụ thuộc giữa các phần dư - phần thô còn sót lại sau khi tìm thấy mô hình phù hợp cho các biến.

Bạn có thể muốn bắt đầu với một số tài nguyên cơ bản trên các mô hình chuỗi thời gian trước khi đi sâu vào tìm hiểu xem liệu một mối tương quan Pearson qua (có lẽ là) chuỗi không ổn định, có thể diễn giải được không.

Đặc biệt, có lẽ bạn sẽ muốn xem xét hiện tượng ở đây . [Trong chuỗi thời gian đôi khi điều này được gọi là tương quan giả , mặc dù bài viết trên Wikipedia về tương quan giả có quan điểm hẹp về việc sử dụng thuật ngữ theo cách dường như loại trừ việc sử dụng thuật ngữ này. Thay vào đó, bạn có thể sẽ tìm thấy nhiều hơn về các vấn đề được thảo luận ở đây bằng cách tìm kiếm hồi quy giả .]

[Chỉnh sửa - cảnh quan Wikipedia tiếp tục thay đổi; đoạn trên. có lẽ nên được sửa đổi để phản ánh những gì hiện có.]

ví dụ: xem một số cuộc thảo luận

  1. http://www.math.ku.dk/~sjo/ con / LacbonPaper.pdf (trích dẫn mở đầu của Yule, trong một bài báo trình bày năm 1925 nhưng xuất bản năm sau, tóm tắt vấn đề khá tốt)

  2. Christos Agiakloglou và Apostolos Tsimpanos, giả Tương quan cho Văn phòng phẩm AR (1) Quy trình http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (chương trình này mà bạn thậm chí có thể nhận được vấn đề giữa các loạt văn phòng phẩm, do đó xu hướng prewhiten)

  3. Tài liệu tham khảo kinh điển của Yule, (1926) [1] đã đề cập ở trên.

Bạn cũng có thể thấy các cuộc thảo luận ở đây hữu ích, cũng như các cuộc thảo luận ở đây

-

Sử dụng tương quan Pearson một cách có ý nghĩa giữa các chuỗi thời gian là khó khăn và đôi khi đáng ngạc nhiên tinh tế.


Tôi đã tra cứu mối tương quan giả, nhưng tôi không quan tâm nếu loạt A của tôi là nguyên nhân của loạt B của tôi hay ngược lại. Tôi chỉ muốn biết liệu bạn có thể tìm hiểu điều gì về loạt A hay không bằng cách xem loạt B đang làm gì (hoặc ngược lại). Nói cách khác - họ có mối tương quan.

Hãy lưu ý nhận xét trước đây của tôi về việc sử dụng hẹp thuật ngữ tương quan giả trong bài viết Wikipedia.

Điểm về tương quan giả là chuỗi có thể xuất hiện tương quan, nhưng bản thân mối tương quan này không có ý nghĩa. Hãy xem xét hai người ném hai đồng xu riêng biệt đếm số lượng đầu cho đến nay trừ đi số đuôi cho đến khi giá trị của chuỗi của họ.

HTHH...1,0,1,2,...

Rõ ràng không có bất kỳ kết nối nào giữa hai bộ. Rõ ràng không thể cho bạn biết điều đầu tiên về người khác!

Nhưng hãy nhìn vào loại tương quan bạn nhận được giữa các cặp tiền:

nhập mô tả hình ảnh ở đây

Nếu tôi không nói cho bạn biết đó là những gì, và bạn đã tự mình lấy bất kỳ cặp nào trong số đó, thì đó có phải là những tương quan ấn tượng không?

Nhưng tất cả đều vô nghĩa . Hoàn toàn giả mạo. Không có cặp nào trong ba cặp thực sự có liên quan tích cực hoặc tiêu cực với nhau hơn bất kỳ cặp nào khác - đó chỉ là tiếng ồn tích lũy . Tính giả mạo không chỉ là về dự đoán, toàn bộ khái niệm xem xét sự liên kết giữa các chuỗi mà không tính đến sự phụ thuộc trong chuỗi bị đặt sai chỗ.

Tất cả bạn có ở đây là phụ thuộc trong loạt . Không có mối quan hệ xuyên thực tế nào cả.

Khi bạn giải quyết đúng đắn vấn đề khiến các chuỗi này phụ thuộc tự động - tất cả đều được tích hợp ( bước đi ngẫu nhiên Bernoulli ), vì vậy bạn cần phân biệt chúng - mối liên hệ "rõ ràng" biến mất (mối tương quan giữa chuỗi tuyệt đối lớn nhất của ba là 0,048).

Những gì nói với bạn là sự thật - sự liên kết rõ ràng chỉ là một ảo ảnh gây ra bởi sự phụ thuộc trong chuỗi.

Câu hỏi của bạn đã hỏi "cách sử dụng tương quan Pearson một cách chính xác với chuỗi thời gian" - vì vậy hãy hiểu: nếu có sự phụ thuộc trong chuỗi và bạn không giải quyết nó trước, bạn sẽ không sử dụng chính xác.

Hơn nữa, làm mịn sẽ không làm giảm vấn đề phụ thuộc nối tiếp; hoàn toàn ngược lại - nó làm cho nó thậm chí còn tồi tệ hơn! Dưới đây là các mối tương quan sau khi làm mịn (mặc định hoàng thổ trơn tru - của chuỗi so với chỉ số - được thực hiện trong R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

Tất cả đều tăng thêm từ 0. Tất cả vẫn không có gì ngoài tiếng ồn vô nghĩa , mặc dù bây giờ nó đã được làm mịn, tích lũy tiếng ồn. (Bằng cách làm mịn, chúng tôi giảm độ biến thiên trong chuỗi chúng tôi đưa vào tính toán tương quan, vì vậy đó có thể là lý do tại sao mối tương quan tăng lên.)

[1]: Yule, GU (1926) "Tại sao đôi khi chúng ta nhận được những điều vô nghĩa giữa các chuỗi thời gian?" J.Roy.Stat.Soc. , 89 , 1 , trang 1-63


Cảm ơn bạn đã trả lời tuyệt vời. Tôi đã tìm kiếm mối tương quan giả, nhưng tôi không quan tâm nếu loạt A của tôi là nguyên nhân của loạt B của tôi hay ngược lại. Tôi chỉ muốn biết liệu bạn có thể tìm hiểu điều gì về loạt A hay không bằng cách xem loạt B đang làm gì (hoặc ngược lại). Nói cách khác - họ có một mối tương quan.
dùng1551817

Xin vui lòng xem câu trả lời cập nhật của tôi.
Glen_b

2
".. bạn cần phải phân biệt chúng .." chính xác nghĩa là gì? Có lẽ phân biệt chúng? ..
Georgios Pligoropoulos 21/07/17

1
Khác biệt - xem Wikipedia ở đây hoặc phần này của cuốn sách Dự báo, Nguyên tắc và Thực hành . Về câu hỏi tiếp theo của bạn, phần còn lại của đoạn bạn trích dẫn khá rõ ràng khi nói như vậy. (Tuy nhiên, đó không phải là khả năng duy nhất, chỉ mô tả một điều khá phổ biến đã được thực hiện)
Glen_b

1
Tôi đã định vị những gì dường như là một phiên bản khác của bài báo, và thêm tiêu đề và tác giả
Glen_b

6

(St)1tTXt=StSt1) là (trong trường hợp đi bộ ngẫu nhiên) độc lập và phân phối giống hệt nhau. Tôi đề nghị bạn nên sử dụng tương quan Spearman hoặc Kendall, vì chúng mạnh hơn hệ số Pearson. Pearson đo lường sự phụ thuộc tuyến tính trong khi phép đo Spearman và Kendall là bất biến bởi các biến đổi đơn điệu của các biến của bạn.

Ngoài ra, hãy tưởng tượng rằng hai chuỗi thời gian phụ thuộc rất nhiều, nói di chuyển lên và đi xuống cùng nhau, nhưng một chuỗi trải qua các biến thể đôi khi mạnh mẽ và một biến thể luôn có các biến thể nhẹ, tương quan Pearson của bạn sẽ khá thấp không giống với Spearman và Kendall (mà là ước tính tốt hơn về sự phụ thuộc giữa chuỗi thời gian của bạn).

Để xử lý triệt để vấn đề này và hiểu rõ hơn về sự phụ thuộc, bạn có thể xem Lý thuyết Copulatìm một ứng dụng cho chuỗi thời gian .


4

Dữ liệu chuỗi thời gian thường phụ thuộc vào thời gian. Tương quan Pearson, tuy nhiên, là thích hợp cho dữ liệu độc lập. Vấn đề này tương tự như cái gọi là hồi quy giả. Hệ số có thể rất có ý nghĩa nhưng điều này chỉ xuất phát từ xu hướng thời gian của dữ liệu ảnh hưởng đến cả hai chuỗi. Tôi khuyên bạn nên lập mô hình dữ liệu và sau đó thử xem liệu mô hình hóa có tạo ra kết quả tương tự cho cả hai chuỗi hay không. Tuy nhiên, sử dụng hệ số tương quan Pearson rất có thể sẽ cho kết quả sai lệch cho việc giải thích cấu trúc phụ thuộc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.