Tương quan giữa hai biến có kích thước không bằng nhau


9

Trong một vấn đề tôi đang làm việc, tôi có hai biến ngẫu nhiên là X và Y. Tôi cần tìm hiểu mức độ tương quan chặt chẽ của hai trong số chúng, nhưng chúng có kích thước khác nhau. Thứ hạng của không gian hàng của X là 4350 và thứ hạng của không gian hàng của Y lớn hơn đáng kể, trong hàng chục nghìn. Cả X và Y có cùng số cột.

Tôi cần một thước đo tương quan giữa hai biến và r Pearson yêu cầu X và Y có kích thước bằng nhau (ít nhất R yêu cầu hai rv là).

Tôi có hy vọng làm được mối tương quan giữa hai điều này không, hay tôi nên tìm cách cắt tỉa những quan sát từ Y?

 EDIT

Thêm thông tin từ các ý kiến, cần có trong câu hỏi.

Tôi cho rằng tôi đã quên đề cập đến điều này. X và Y là giá cổ phiếu. Công ty X đã được công khai trong khoảng thời gian ngắn hơn nhiều so với Y. Tôi muốn cho biết giá của X và Y tương quan như thế nào. Tôi chắc chắn có thể có được một mối tương quan trong khoảng thời gian mà cả X và Y đều tồn tại. Tôi muốn biết nếu biết giá cổ phiếu trong vài năm nữa của Y mà X không tồn tại mang lại cho tôi bất kỳ thông tin bổ sung nào.


2
Điều này không có vẻ như bạn có các quan sát (hoặc "trường hợp") mà trên đó bạn quan sát cả nhận thức X và Y. Làm thế nào để bạn tìm ra X liên quan đến Y nào?
Stephan Kolassa

1
Tôi cho rằng tôi đã quên đề cập đến điều này. X và Y là giá cổ phiếu. Công ty X đã được công khai trong khoảng thời gian ngắn hơn nhiều so với Y. Tôi muốn cho biết giá của X và Y tương quan như thế nào. Tôi chắc chắn có thể có được một mối tương quan trong khoảng thời gian mà cả X và Y đều tồn tại. Tôi muốn biết nếu biết giá cổ phiếu trong vài năm nữa của Y mà X không tồn tại mang lại cho tôi bất kỳ thông tin bổ sung nào.
Christopher Aden

2
@Christopher Tôi khuyên bạn nên cập nhật câu hỏi của mình để phản ánh nhận xét trên của bạn. Ngoài ra, để tương quan có ý nghĩa, không chỉ cần các kích thước bằng nhau; các phép đo thực tế phải đến từ các trường hợp tương tự, trong trường hợp của bạn có lẽ là cùng thời điểm.
Jeromy Anglim

2
Tôi thứ hai bình luận của Jeromy về việc cập nhật câu hỏi ...
Stephan Kolassa

Một câu hỏi khác: bạn đề cập rằng X và Y có cùng số cột. Đó sẽ là một trong mỗi? Hoặc bạn có nhiều loạt cho cả X và Y (giá tại các sàn giao dịch chứng khoán khác nhau hoặc một số như vậy)?
Stephan Kolassa

Câu trả lời:


10

Không có số lượng từ chối, phân tích chuỗi thời gian, mô hình GARCH, nội suy, ngoại suy hoặc các thuật toán ưa thích khác sẽ làm bất cứ điều gì để tạo ra thông tin khi nó không tồn tại (mặc dù chúng có thể tạo ra ảo ảnh đó ;-). Lịch sử về giá của Y trước khi X công khai là vô ích để đánh giá mối tương quan tiếp theo của chúng.

Đôi khi, các nhà phân tích (thường là chuẩn bị cho IPO) sử dụng thông tin kế toán nội bộ (hoặc hồ sơ giao dịch cổ phiếu tư nhân) để tái cấu trúc lại giá giả định cho cổ phiếu của X trước khi công khai. Có thể hiểu được những thông tin như vậy có thể được sử dụng để tăng cường các ước tính tương quan, nhưng do tính chất cực kỳ dự kiến ​​của các phát sóng đó, tôi nghi ngờ nỗ lực này sẽ giúp ích được gì, ngoại trừ ban đầu khi chỉ có vài ngày hoặc vài tuần giá cho X có sẵn.


Làm rõ: Tôi đã không đề cập đến GARCH để giải quyết vấn đề dữ liệu bị thiếu (tất nhiên sẽ không có ý nghĩa) - nhưng để cải thiện một phép tính đơn giản về mối tương quan giữa chuỗi thời gian ở cả hai thời điểm tồn tại.
Stephan Kolassa

@Stephan: OK. Tôi đã đề cập đến nó chủ yếu để cho thấy tôi đã không bỏ qua bạn!
whuber

1
Cảm ơn bạn, whuber. Điều này phù hợp với những gì tôi đang tìm kiếm. Tôi không nghĩ rằng việc phát lại sẽ được sử dụng nhiều (hoặc khả thi) để thêm một vài tuần nữa của X khi khung thời gian tương hỗ giữa X và Y đã khoảng 16 năm.
Christopher Aden

2
@Christopher: !! Với 16 năm (đóng cửa hàng ngày?), Bạn có đủ dữ liệu không chỉ để tìm mối tương quan, mà còn để khám phá cách nó đã thay đổi theo thời gian. (Điều này tôi tin là tinh thần trả lời của @Stephan Kolassa.)
whuber

Tôi đồng ý. Sử dụng các kỹ thuật để tìm ra giá trị X nào đã thực hiện trước khi IPO của nó có vẻ dễ bị lỗi. Tôi cũng có thể đặt câu hỏi về sự liên quan của dữ liệu 16 tuổi để dự đoán xu hướng hiện đại.
Christopher Aden

10

Vì vậy, vấn đề là một trong những dữ liệu bị thiếu (không phải tất cả Y đều có X tương ứng, trong đó sự tương ứng được vận hành thông qua các điểm thời gian). Tôi không nghĩ có nhiều việc phải làm ở đây ngoài việc vứt bỏ Y mà bạn không có X và tính toán tương quan trên các cặp đầy đủ.

Bạn có thể muốn đọc lên chuỗi thời gian tài chính, mặc dù tôi không có tài liệu tham khảo tốt vào thời điểm này (ý tưởng, có ai không?). Giá cổ phiếu thường thể hiện sự biến động theo thời gian, có thể được mô hình hóa, ví dụ, bởi GARCH . Có thể hình dung rằng chuỗi hai thời gian X và Y của bạn thể hiện mối tương quan tích cực trong thời kỳ biến động thấp (khi nền kinh tế tăng trưởng, tất cả giá cổ phiếu có xu hướng tăng), nhưng tương quan tiêu cực khi biến động tổng thể cao (vào ngày 9/11, các hãng hàng không giảm trong khi tiền chạy trốn để đầu tư an toàn hơn). Vì vậy, chỉ cần tính toán một mối tương quan tổng thể có thể quá phụ thuộc vào khung thời gian quan sát của bạn.

CẬP NHẬT: Tôi nghĩ rằng bạn có thể muốn xem xét các mô hình VAR (vectơ tự phát) .


Để tham khảo chuỗi thời gian tài chính cơ bản, bạn có thể xem câu trả lời của tôi ở đây: stats.stackexchange.com/questions/328/ . Văn bản Tsay là một trong những phổ biến nhất.
Shane

2

@Jeromy Anglim chỉ định điều này một cách chính xác. Có thêm thông tin khi chỉ tồn tại một trong các chuỗi thời gian sẽ không cung cấp giá trị ở đây. Và về nguyên tắc, dữ liệu nên được lấy mẫu cùng lúc để nó có ý nghĩa bằng các biện pháp tương quan thông thường.

Là một vấn đề tổng quát hơn, tôi sẽ thêm rằng có các kỹ thuật để xử lý dữ liệu chuỗi thời gian cách đều nhau. Bạn có thể tìm kiếm "tương quan chuỗi thời gian không đều". Một số công việc gần đây đã được thực hiện về "Biến động và tương quan thực hiện" (Andersen, Bollerslev, Diebold và Labys 1999) sử dụng dữ liệu tần số cao.


1

Đưa ra thông tin bổ sung trong ý kiến ​​của bạn, tôi khuyên bạn nên xem xét hai mối tương quan. Đầu tiên sẽ là khoảng thời gian chung mà các công ty đều có mặt. Vì vậy, nếu một trong khoảng 2 năm trước, bạn chỉ cần bỏ dữ liệu đó và xem phần còn lại. Thứ hai sẽ là khoảng thời gian tương đối. Trong lần thứ hai, bạn không tương quan thời gian thực tế nhưng thời gian được đo kể từ khi công ty ra công chúng.

Cái trước sẽ bị ảnh hưởng mạnh mẽ bởi các lực lượng kinh tế chung được chia sẻ trong cùng khoảng thời gian. Cái sau sẽ bị ảnh hưởng bởi các tài sản được chia sẻ bởi các công ty khi chúng thay đổi sau khi IPO.


0

Một cách khác để giải quyết vấn đề như vậy là áp đặt dữ liệu còn thiếu cho chuỗi ngắn hơn bằng cách sử dụng mô hình chuỗi thời gian có thể có hoặc không có ý nghĩa trong bối cảnh cụ thể.

Trong bối cảnh của bạn, việc đưa giá cổ phiếu vào quá khứ có nghĩa là bạn đang đặt câu hỏi ngược thực tế sau: Giá cổ phiếu của công ty X sẽ được công khai trong những năm trước thay vì khi nó thực sự công khai? Việc cắt giảm dữ liệu như vậy có thể có khả năng được thực hiện bằng cách tính đến giá cổ phiếu của các công ty liên quan, xu hướng thị trường chung, v.v. Nhưng, một phân tích như vậy có thể không có ý nghĩa hoặc có thể không cần thiết cho các mục tiêu của dự án của bạn.


0

Vâng rất nhiều phụ thuộc vào các giả định bạn thực hiện. Nếu bạn cho rằng dữ liệu là ổn định thì nhiều dữ liệu hơn cho chuỗi một sẽ cung cấp cho bạn ước tính rõ ràng hơn về tính biến động của nó. Ước tính này có thể được sử dụng để cải thiện ước tính tương quan. Vì vậy, thống kê follwaging không chính xác:

"Lịch sử giá của Y trước khi X công khai là vô ích để đánh giá mối tương quan tiếp theo của họ"


Tôi nghĩ về điều này. Về lý thuyết có thể hoạt động, nhưng sẽ rất không linh hoạt, vì vậy tốt hơn nên tránh.
kjetil b halvorsen

-1

Điều này nghe có vẻ như là một vấn đề đối với một thuật toán học máy. Do đó, tôi sẽ cố gắng tìm ra một tập hợp các tính năng mô tả một khía cạnh nhất định của xu hướng và đào tạo về điều đó. Toàn bộ lý thuyết máy học là một chút phức tạp cho hộp câu trả lời này, nhưng nó sẽ hữu ích cho bạn để đọc nó.

Nhưng thành thật mà nói, tôi nghĩ rằng đã tồn tại ngoài đó. Tiền có thể kiếm được ở đâu, mọi người đặt tâm trí vào đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.