Nếu A và B tương quan với C, tại sao A và B không nhất thiết phải tương quan?


62

Tôi biết thực tế đó là trường hợp. Tôi vừa phát triển các mô hình chạy vào câu hỏi hóc búa này. Tôi cũng nghi ngờ nó không nhất thiết là câu trả lời có / không. Ý tôi là nếu cả A và B tương quan với C, thì điều này có thể có một số hàm ý liên quan đến tương quan giữa A và B. Nhưng, hàm ý này có thể yếu. Nó có thể chỉ là một hướng dấu hiệu và không có gì khác.

Ý tôi là ... giả sử cả A và B đều có tương quan 0,5 với C. Do đó, tương quan giữa A và B hoàn toàn có thể là 1,0. Tôi nghĩ rằng nó cũng có thể là 0,5 hoặc thậm chí thấp hơn. Nhưng, tôi nghĩ không chắc là nó sẽ tiêu cực. Bạn có đồng ý với điều đó không?

Ngoài ra, có một hàm ý nếu bạn đang xem xét Hệ số tương quan Pearson tiêu chuẩn hoặc thay vào đó là Hệ số tương quan Spearman (xếp hạng)? Những quan sát thực nghiệm gần đây của tôi có liên quan đến Hệ số tương quan Spearman.


38
Một ví dụ là lấy , B = YC = XA=XB=Y . Chúng ta có thể X Y là độc lập, nhưng cả hai Một B có tương quan (tích cực, Pearson) với C . C=X+YXYABC

1
Cảm ơn, đó thực sự là một bình luận tuyệt vời. Ngắn, nhưng nó nắm bắt được bản chất của lý do tại sao nó là như vậy.
Sympa

Câu trả lời:


53

Bởi vì mối tương quan là một tính chất toán học của các phân phối đa biến, một số cái nhìn sâu sắc có thể hoàn toàn thông qua các tính toán, bất kể nguồn gốc thống kê của các phân phối đó.

Đối với hệ số tương quan Pearson , hãy xem xét các biến multinormal , Y , Z . Chúng rất hữu ích khi làm việc bởi vì bất kỳ ma trận xác định không âm nào thực sự là ma trận hiệp phương sai của một số phân phối đa thường, do đó giải quyết được câu hỏi tồn tại. Nếu chúng ta dính vào ma trận với 1 trên đường chéo, các mục ngoài đường chéo của ma trận hiệp phương sai sẽ là mối tương quan của chúng. Viết tương quan của XXYZ1X ρ , mối tương quan của Y Z τ , và mối tương quan của X ZYρYZτXZ , ta tính rằngσ

  • (vì đây là yếu tố quyết định của ma trận tương quan và nó không thể là tiêu cực).1+2ρστ-(ρ2+σ2+τ2)0

  • Khi này ngụ ý rằng ρ 2 +σ= =0 . Nói cách khác: khi cả hai ρ τ là lớn trong độ richter, X Z phảicó mối tương quan khác không.ρ2+τ21ρτXZ

  • Nếu , sau đó bất kỳ giá trị không âm của σ (giữa 0 1 dĩ nhiên) là có thể.ρ2= =τ2= =1/2σ01

  • Khi , giá trị âm của σ là cho phép. Ví dụ, khi ρ = τρ2+τ2<1σ , σ có thể dao động giữa - 1 / 2 1 .ρ= =τ= =1/2σ-1/21

Những cân nhắc này ngụ ý thực sự có một số hạn chế về mối tương quan lẫn nhau. Các ràng buộc (chỉ phụ thuộc vào độ chính xác không âm của ma trận tương quan, không phụ thuộc vào phân phối thực tế của các biến) có thể được thắt chặt tùy thuộc vào các giả định về phân phối đơn biến. Chẳng hạn, thật dễ dàng để thấy (và để chứng minh) rằng khi phân phối Y không nằm trong gia đình vị trí quy mô tương tự, mối tương quan của họ phảinghiêm chỉnhít hơn 1 trong kích thước. (Chứng minh: mối tương quan của ± 1 ngụ ý X Y có liên quan tuyến tính như)XY1±1XY

Theo như tương quan xếp hạng Spearman , hãy xem xét ba quan sát tầm thường , ( 2 , 3 , 1 )( 3 , 2 , 3 ) của ( X , Y , Z ) Y(1,1,2)(2,3,1)(3,2,3)(X,Y,Z) . Mối tương quan thứ hạng lẫn nhau của họ là , 1 / 2 , và - 1 / 2 . Do đó, ngay cả dấu hiệu của mối tương quan xếp hạng của1/21/2-1/2Y có thể là ngược lại trong những dấu hiệu của sự tương quan của X Y X Z .ZXYXZ


whuber, "biến đa thường" là gì?
Sympa


Như thường lệ, một lời giải thích kỹ lưỡng nhất bạn nhận được một dấu kiểm "Câu trả lời hay nhất" xứng đáng.
Sympa

@Gaetan Lion Bạn rất tốt bụng. Tôi rất thích đọc tất cả các câu trả lời cho câu hỏi này (và đánh dấu tất cả chúng lên).
whuber

88

Tôi đang đi câu cá hàng năm ngay bây giờ. Có một mối tương quan giữa thời gian trong ngày tôi câu cá và lượng cá tôi bắt được. Cũng có mối tương quan giữa kích thước mồi tôi sử dụng và lượng cá tôi bắt được. Không có mối tương quan giữa kích thước của mồi và thời gian trong ngày.


Basil, tôi thích nó! +1 cho một lời giải thích bằng tiếng Anh.
Sympa

Tốt. Câu trả lời. Trên thống kê.stackexchange. Bao giờ
Chris Beeley

1
Điều này mô tả một trường hợp bắt đầu tương quan thấp, nhưng nó không giải thích trường hợp tương quan cao hơn. Nếu có tương quan 80% với thời gian trong ngày và có tương quan 80% với kích thước mồi, tôi có thể đảm bảo rằng bạn đang sử dụng mồi lớn hơn trong ngày!
dùng35581

2
@ user35581 không bạn không thể - bạn đang thiếu toàn bộ điểm. Mỗi giờ anh ta có thể câu một lần với mồi nhỏ và một lần với mồi lớn. Anh ta vẫn có thể bắt được nhiều cá hơn trong những thời điểm nhất định trong ngày (tương quan 80%) và bắt được nhiều cá hơn với mồi lớn hơn (tương quan 80%) và có 0 mối tương quan giữa kích thước mồi anh ta đang sử dụng và thời gian trong ngày. Nó thậm chí có thể là một mối tương quan tiêu cực nếu anh ta sử dụng mồi lớn hơn thường xuyên hơn trong thời gian thấp điểm trong ngày để bù đắp cho thời gian tồi tệ trong ngày. Vì vậy, bạn thực sự không biết gì về mối tương quan giữa thời gian trong ngày và kích thước của mồi.
rysqui

2
@rysqui xin lỗi, nhận xét của tôi được diễn đạt kém, nhưng điểm tôi đang cố gắng đưa ra là: khi mối tương quan giữa các tính năng và mục tiêu trở nên rất cao, thì các tính năng của bạn cũng phải tương quan. Vì vậy, nếu bạn có mối tương quan hoàn hảo giữa thời gian trong ngày và kích cỡ đánh bắt và mối tương quan hoàn hảo giữa kích thước mồi và kích cỡ đánh bắt, thì bạn cũng phải có mối tương quan hoàn hảo giữa kích thước mồi và thời gian trong ngày, do đó là tuyên bố cuối cùng "Bạn đang sử dụng mồi lớn hơn trong ngày". Hãy nhớ rằng đây là một trường hợp cạnh!
dùng35581

20

Tương quan là cosin của góc giữa hai vectơ. Trong tình huống được mô tả, (A, B, C) là một bộ ba quan sát, được thực hiện n lần, mỗi lần quan sát là một số thực. Mối tương quan giữa A và B là cosin của góc giữa V B = B - E ( B ) được đo trong không gian euclid n chiều. Vì vậy, tình hình của chúng tôi giảm xuống khi xem xét 3 vectơ V A , V BVA=AE(A)VB=BE(B)VAVBVCtrong không gian n chiều. Chúng ta có 3 cặp vectơ và do đó 3 góc. Nếu hai trong số các góc nhỏ (tương quan cao) thì góc thứ ba cũng sẽ nhỏ. Nhưng để nói "tương quan" không có nhiều hạn chế: điều đó có nghĩa là góc nằm trong khoảng từ 0 đến . Nói chung, điều này không hạn chế ở góc thứ ba. Đặt nó theo một cách khác, bắt đầu với bất kỳ góc nhỏ hơn π giữa V AV B (bất kỳ mối tương quan nào ngoại trừ -1). Cho V C chia đôi góc giữa V AV Bπ/2πVAVBVCVAVB . Khi đó C sẽ tương quan với cả A và B.


Tương quan +1 về góc của các vectơ đa chiều là trực quan đối với tôi.
Petrus Theron

2
Để tham khảo các độc giả tương lai, tôi mở rộng câu trả lời hình học này (có hình ảnh!) Trong chuỗi sau: talkstats.com/showthread.php/ trộm
Jake Westfall

18

Là một phần bổ sung cho câu trả lời của người đánh bóng: Công thức được trình bày

1+2ρστ-(ρ2+σ2+τ2)0 .

có thể được chuyển thành bất đẳng thức sau (Olkin, 1981):

στ-(1-σ2)(1-τ2)ρστ+(1-σ2)(1-τ2)

Một biểu diễn đồ họa của giới hạn trên và dưới cho trông giống như:ρ

nhập mô tả hình ảnh ở đây


Olkin, I. (1981). Phạm vi giới hạn cho ma trận tương quan thời điểm sản phẩm. Tâm lý học, 46, 469-472. doi: 10.1007 / BF02293804


Ai đó có thể cho tôi biết nếu một số ví dụ này là các bản phân phối đa biến có phân phối biên cụ thể làm hạn chế phạm vi tương quan có thể có giữa các thành phần không? Điều đó có nghĩa là các mối tương quan không thể lấy toàn bộ phạm vi từ -1 đến 1. Tôi nhớ rằng Frechet có ít nhất một người đã phát triển điều này trong những năm 1950. Khi tôi tìm kiếm các tài liệu ngày hôm nay, tôi nghĩ rằng chúng bây giờ được gọi là các công thức Frechet.
Michael Chernick

14

Tôi nghĩ tốt hơn là hỏi "tại sao NÊN họ có tương quan?" hoặc, có lẽ "Tại sao nên có bất kỳ mối tương quan cụ thể?"

Mã R sau đây cho thấy trường hợp x1 và x2 đều tương quan với Y, nhưng có 0 tương quan với nhau

x1 <- rnorm(100)
x2  <- rnorm(100)
y <- 3*x1 + 2*x2 + rnorm(100, 0, .3)

cor(x1,y)
cor(x2,y)
cor(x1,x2)

Mối tương quan với Y có thể được thực hiện mạnh mẽ hơn bằng cách giảm .3 xuống .1 hoặc bất cứ điều gì


Thật không may, tôi không phải là người dùng R. Vì vậy, các mã ở trên có ý nghĩa với tôi ít hơn so với chúng có nghĩa với bạn.
Sympa

2
x1x2y= =3x1+2x2yx1x2

14

Tôi sẽ để lại phần trình diễn thống kê cho những người phù hợp hơn tôi vì nó ... nhưng theo trực giác thì sự kiện A tạo ra một quá trình X góp phần tạo ra sự kiện C. Sau đó A tương quan với C (thông qua X). B, mặt khác tạo ra Y, cũng có hình dạng C. Do đó A tương quan với C, B tương quan với C nhưng A và B không tương quan.


1
@Đẹp. Tôi nghĩ bạn có nghĩa là "A và B không tương quan" trong phần cuối của câu cuối cùng của bạn.
suncoolsu

Phải, Nico với sự điều chỉnh suncoolsu ... đây là một lời giải thích hợp lý. Bạn đang mô tả một phần Phân tích Đường dẫn.
Sympa

Vâng, xin lỗi, tôi đã nhầm lẫn với các chữ cái;)
nico

1

Đối với những người muốn có một số trực giác, một mối tương quan có thể được coi là một cosin của một số góc độ. Vì vậy, hãy xem xét ba vectơ trong 3D, giả sử A, B và C, mỗi vectơ tương ứng với một biến. Câu hỏi là để xác định phạm vi các góc có thể có giữa A và C khi góc giữa A và B cũng như góc giữa B et C được biết đến. Vì thế, bạn có thể chơi với một công cụ trực tuyến mà không cần cài đặt bất kỳ phần mềm nào. Chỉ cần truy cập trang http://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php


0

Hãy lấy một ví dụ:

A={x1,x2,x3,x4,x5,x6,x7,x8,x9}

B={x1,x2,x3,0,0,0,0,0,0}

C={0,0,0,x4,x5,x6,0,0,0}

Đối với một số x, A và B sẽ có mối tương quan đáng kể, tương tự A và C cũng sẽ có tương quan đáng kể nhưng tương quan của B và C sẽ không đáng kể.

Vì vậy, không nhất thiết là nếu A và B tương quan và A và C tương quan với nhau thì B và C cũng tương quan với nhau.

Lưu ý: Để hiểu sâu, xin vui lòng nghĩ ví dụ này trên dữ liệu lớn.


BCx1x6MộtBCx1x9

Tôi cảm thấy thoải mái với câu trả lời của Abhishek Anand vì cuối cùng mọi thứ đều tương quan với mọi thứ khác ở một mức độ nào đó. Và, tôi thích cách anh ấy đánh giá nó về ý nghĩa thống kê. Khi bạn sử dụng khung đó, điều khá rõ ràng là nếu A và B có mối tương quan đáng kể về mặt thống kê với C, thì A hoặc B có thể không nhất thiết phải tương quan đáng kể về mặt thống kê (sử dụng khung thực tế của câu hỏi ban đầu của tôi). Tôi nghĩ rằng sơ đồ thông hơi có thể làm cho một lời giải thích trực quan tuyệt vời về khái niệm đó.
Sympa

@whuber Tôi đồng ý với bạn. Đây chỉ là một ví dụ mẫu giải thích, tại sao không cần thiết
Abhishek Anand

Điều đó tốt - nhưng dường như bạn có một quan niệm sai lầm về mối tương quan giữa các vectơ này. Không có tuyên bố nào bạn đưa ra về các hệ số tương quan của các vectơ này nói chung là chính xác.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.