Thời gian âm lượng tương quan


12

Hãy xem xét biểu đồ sau:

twitter và khối lượng giao dịch

Đường màu đỏ (trục trái) mô tả khối lượng giao dịch của một cổ phiếu nhất định. Đường màu xanh (trục phải) mô tả âm lượng tin nhắn twitter cho cổ phiếu đó. Chẳng hạn, vào ngày 9 tháng 5 (05-09), khoảng 1.100 triệu giao dịch và 4.000 tweet đã được thực hiện.

Tôi muốn tính toán liệu có mối tương quan giữa các mốc thời gian, trong cùng một ngày hoặc với độ trễ - ví dụ: khối lượng tweet tương quan với khối lượng giao dịch một ngày sau đó. Tôi đang đọc nhiều bài báo đã thực hiện phân tích như vậy, ví dụ Tương quan chuỗi thời gian tài chính với hoạt động viết blog vi mô , nhưng họ không mô tả cách phân tích như vậy được thực hiện theo thuật ngữ thực tế. Sau đây được nêu trong bài viết:

nhập mô tả hình ảnh ở đây

Tuy nhiên, tôi có rất ít kinh nghiệm về phân tích thống kê và không biết cách thực hiện điều này trên loạt bài mà tôi có. Tôi sử dụng SPSS (còn được gọi là PASW) và câu hỏi của tôi là: các bước cần thực hiện để phân tích như vậy từ điểm mà tôi có một tệp dữ liệu nằm dưới hình ảnh trên là gì? Thử nghiệm như vậy có phải là một tính năng mặc định (và nó được gọi là gì không) và / hoặc làm thế nào tôi có thể thực hiện nó?

Mọi sự trợ giúp sẽ rất được trân trọng :-)


1
Bạn có thể tính toán chúng ... bạn không thể so sánh chúng với các giá trị quan trọng trừ khi hai chuỗi có hai biến thiên bình thường
IrishStat

Tôi đã dán dữ liệu thô ở đây: pastebin.com/tZajRae9 Có cách nào để biết liệu loạt phim có biến đổi hai chiều bình thường không? Tôi thực sự sẽ đánh giá cao bình luận của bạn.
Pr0no

Sau khi phát hiện các thay đổi Outliers / Level trong từng chuỗi, chuỗi điều chỉnh kết quả đã thể hiện mô hình AR (1). Sau khi kết hợp không chỉ điều chỉnh Shift ngoại lệ / mức VÀ cả AR (1), cả hai chuỗi nhiễu đều không có tương quan tự động (trong cấu trúc). Một mối tương quan chéo của hai chuỗi thay thế này cho thấy không có mối tương quan chéo thực chất (giữa các cấu trúc), do đó số lượng tweet không xuất hiện để giúp dự đoán âm lượng.
IrishStat

Câu trả lời:


6

Hai kiểm tra cho tính quy tắc bivariate kiểm tra ba điều:

  1. kiểm tra xem loạt quan sát đầu tiên có bình thường không,
  2. kiểm tra xem loạt quan sát thứ hai có bình thường không,
  3. hồi quy lẫn nhau và kiểm tra xem phần dư có bình thường không.

Để kiểm tra tính quy tắc ở mỗi bước này, hãy sử dụng các ô qq bình thường hoặc bạn có thể sử dụng bất kỳ kiểm tra giả thuyết quy tắc nào.

Hoặc ngoài ra, bạn có thể kiểm tra xem mọi kết hợp tuyến tính có thể có (hệ số thực) của hai chuỗi có bình thường không. Điều đó có lẽ sẽ khó khăn, mặc dù.

Chỉnh sửa: (6 năm sau) Tôi sẽ giữ nguyên những điều trên cho hậu thế, nhưng lưu ý rằng tôi có câu trả lời gần đây hơn cho một câu hỏi tương tự ở đây .


Tôi đã thực hiện các bước 1 và 2 và đưa ra các ô vuông sau: i.imgur.com/SDOTE.png Ngoại trừ 3 đến 5 quan sát ngoại lệ, chúng trông có vẻ bình thường. Tuy nhiên, Sig. giá trị cho Thử nghiệm Shapiro-Wilk là 0,000, điều này cho thấy độ lệch đáng kể so với tính chuẩn. Với các ngoại lệ bị loại bỏ, Shapiro Wilk Sig. là 0,01 cho tweets và 0,004 cho giao dịch. Điều này cho thấy không có tương quan là có thể? Ngoài ra, đây là một khoảng thời gian - xóa các ngoại lệ có nghĩa là xóa các ngày trong khung thời gian nghiên cứu. Đây có phải là một thực tế được chấp nhận?
Pr0no

Tôi cũng đã tạo một biểu đồ pp cho bước 3. Hoặc ít nhất, theo cách hiểu của tôi, đây là thứ tôi cần (một hồi quy tuyến tính với biểu đồ xác suất bình thường): i.imgur.com/EZ3Ic.png Có ý kiến ​​gì không?
Pr0no

Các bản phân phối cận biên trông không bình thường. Có một phần nhỏ về suy luận trên liên kết trang wikipedia . Loại bỏ các ngoại lệ nói chung không phải là một ý tưởng tốt. Có thể bootstrap một khoảng tin cậy.
Taylor

1
Câu hỏi là về mối tương quan - nhưng câu trả lời là về tính quy tắc. Câu trả lời được nâng cấp nhiều lần và được chấp nhận. Tôi đang thiếu gì ở đây? ..
Richard Hardy

Một phân phối chuẩn bivariate là mô hình đơn giản nhất thúc đẩy / biện minh cho việc sử dụng tương quan Pearson.
Taylor

11

Hệ số tương quan giữa các chuỗi thời gian là vô ích. Xem HỢP TÁC XÁC NHẬN - Các giá trị quan trọng để Kiểm tra Ý nghĩa . Điều này lần đầu tiên được U. Yule chỉ ra vào năm 1926 Yule, GU, 1926, "Tại sao đôi khi chúng ta có được mối tương quan vô nghĩa giữa chuỗi thời gian? Một nghiên cứu về lấy mẫu và bản chất của chuỗi thời gian", Tạp chí của Hiệp hội Thống kê Hoàng gia 89, 1 Cẩu64 . Bạn có thể muốn google "tại sao chúng ta có được mối tương quan vô nghĩa" để biết thêm.

Lý do cho điều này là các thử nghiệm cho sự tương quan đòi hỏi sự bình thường chung. Tính quy phạm chung đòi hỏi mỗi loạt phải bình thường. Bình thường đòi hỏi sự độc lập. Để kiểm tra mối quan hệ giữa chuỗi thời gian, vui lòng xem lại Nhận dạng chức năng chuyển giao trong bất kỳ cuốn sách chuỗi thời gian tốt nào như Phân tích chuỗi thời gian: Phương pháp đơn biến và đa biến, của William WS Wei, David P. Reilly .

Trả lời thử thách

Về mặt câu trả lời cho thử thách của bạn. Một số người ( Yule, GU, 1926 ) đã biết rằng tương quan hai chuỗi thời gian có thể bị thiếu sót đặc biệt nếu một trong hai chuỗi bị ảnh hưởng bởi xung / mức dịch chuyển / xung theo mùa và / hoặc xu hướng thời gian cục bộ. Đó là trường hợp tôi sẽ lấy từng chuỗi SEPARATELY và xác định cấu trúc ARIMA và bất kỳ xung / mức dịch chuyển / xung theo mùa và / hoặc xu hướng thời gian địa phương có thể áp dụng và tạo ra một quy trình lỗi.

Với hai quy trình lỗi sạch, một cho mỗi trong hai chuỗi gốc, tôi sẽ tính toán mối tương quan chéo mà sau đó có thể được sử dụng để đo lường mức độ liên kết ở trên và ngoài cấu trúc tương quan tự động trong mỗi chuỗi. Giải pháp này được gọi một cách thích hợp là phương pháp làm trắng trước gấp đôi.

Xem:


Cảm ơn vì đã trả lời. Nhưng sau đó bạn có nói rằng theo định nghĩa, áo giấy tôi đề cập, không có giá trị? Thứ hai, điều này có nghĩa là theo định nghĩa hai chuỗi không bao giờ có thể tương quan trong đó mối tương quan có ý nghĩa?
Pr0no

3
Mối tương quan có thể được tính toán vì đó là số học đơn giản. Những gì không thể được tính toán (một cách dễ dàng) là xác suất tương quan có ý nghĩa thống kê. Nghĩ lại lần đầu tiên bạn được giới thiệu về hệ số tương quan. Đó là trong bối cảnh của N mẫu độc lập trong đó hai đặc tính / giá trị được tính cho mỗi mẫu N độc lập và mật độ khớp là hai biến số bình thường.
IrishStat

1
Tại sao nó đòi hỏi sự bình thường chung, và không chỉ phân phối (đối xứng?)? tức là đồng phục chung cũng không hoạt động?
ness101

1
@ NAUGHT101. Các giá trị quan trọng cho hệ số tương quan có sẵn theo giả định về tính quy tắc chung và không xác định khác khôn ngoan.
IrishStat

@IrishStat Cảm ơn bạn đã trả lời chỉnh sửa của bạn. Nó được đánh giá cao. Để kiểm tra tính quy tắc, vui lòng xem i.imgur.com/SDOTE.png để biết sơ đồ qq của các biến riêng biệt. Sau khi các ngoại lệ được xóa, một biểu đồ pp, từ những gì tôi hiểu là đo lường tính bình thường chung, trông giống như i.imgur.com/EZ3Ic.png Bạn có nhận xét gì không?
Pr0no
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.