Tại sao hệ số tương quan giữa các biến ngẫu nhiên X và XY có xu hướng là 0,7


49

Lấy từ số liệu thống kê thực tế cho nghiên cứu y học nơi Douglas Altman viết ở trang 285:

... Với hai đại lượng bất kỳ X và Y, X sẽ tương quan với XY. Thật vậy, ngay cả khi X và Y là mẫu của các số ngẫu nhiên, chúng ta sẽ mong đợi mối tương quan của X và XY là 0,7

Tôi đã thử điều này trong R và có vẻ như là trường hợp:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Tại sao vậy? Lý thuyết đằng sau điều này là gì?


Phần nào bạn muốn một lời giải thích cho? Bạn có muốn phương trình đơn giản hóa cho mối tương quan có kết quả vì mối tương quan đã biết giữa x và y và hiệp phương sai giữa x và xy không? Hoặc, bạn chỉ muốn biết tại sao có bất kỳ hiệp phương sai nào ở đây không?
John

Điều này có đúng với bất kỳ Y nào không? Giả sử XZ là không tương quan và để cho Y = X - Z . Sau đó, tôi nghi ngờ X sẽ không được tương quan với X - Y . XYXZY=XZXXY
Henry

Câu trả lời:


69

Nếu Ykhông tương quan biến ngẫu nhiên với phương sai bằng σ 2 , sau đó chúng tôi có mà var ( X - Y )XYσ2 Do đó,ρX,X-Y=cov(X,X-Y)

var(XY)=var(X)+var(Y)=var(X)+var(Y)=2σ2,cov(X,XY)=cov(X,X)cov(X,Y)bilinearity of covariance operator=var(X)00 because X and Y are uncorrelated=σ2.
Vì vậy, khi bạn tìm thấy Σ n i = 1 (xi- ˉ x )((xi-yi)-( ˉ x - ˉ y ))
ρX,XY=cov(X,XY)var(X)var(XY)=σ2σ22σ2=12.
tương quan mẫu củaxx-ycho một tập dữ liệu lớn{(xi,yi):1in
i=1n(xix¯)((xiyi)(x¯y¯))i=1n(xix¯)2i=1n((xiyi)(x¯y¯))2
xxy được rút ra từ một quần thể có các tính chất này, bao gồm "số ngẫu nhiên" là trường hợp đặc biệt, kết quả có xu hướng gần với giá trị tương quan dân số 1{(xi,yi):1in}120.7071

Bạn có thể vui lòng giải thích thêm một chút về cách thức khôngcov(X,X)-cov(X,Y)=s^2
nostock

5
cov (X, X) là tên gọi khác của var (X). cov (X, Y) = 0 vì X và Y được coi là không tương quan (do đó hiệp phương sai = 0).
Dilip Sarwate

58

Một giải thích thống kê hình học.

n 2 XYXY

XYr=0

XY

XYX+Y

XYX+Y2σ2XXYX+Y0.707...

nhập mô tả hình ảnh ở đây


4
+1 lớn để chia sẻ phương pháp này.
whuber

(+1) Đó là một cách trình bày rất gọn gàng này!
Matt Krause

À ... hình ảnh! (+1) Làm tốt lắm. :-)
Đức hồng y

11

Tôi tin rằng cũng có một trực giác đơn giản dựa trên tính đối xứng ở đây. Do X và Y có cùng phân phối và có hiệp phương sai bằng 0, nên mối quan hệ của X ± Y với X sẽ "giải thích" một nửa biến thể trong X ± Y; nửa còn lại phải được giải thích bởi Y. Vậy R 2 phải là 1/2, có nghĩa là R là 1 / √2 0,707.


r2=12r1/21/2

Không, đó thực sự không phải là tiêu chuẩn hơn. (Nếu bạn cần bằng chứng, hãy tìm kiếm câu trả lời hàng đầu. 38 người đã bỏ phiếu cho nó không ngụy biện với cùng một ký hiệu.)
denn333

r2=1/2r=1/2

3

Đây là một cách đơn giản để suy nghĩ về lý do tại sao có một mối tương quan ở đây.

Hãy tưởng tượng những gì diễn ra khi bạn trừ hai phân phối. Nếu giá trị của x thấp thì trung bình x - ysẽ là giá trị thấp hơn nếu giá trị của x cao. Khi x tăng thì x - ytăng, trung bình, và do đó, một mối tương quan tích cực.


4
Tôi không nghĩ tuyên bố của bạn luôn đúng "Sẽ luôn có mối tương quan giữa hai phân phối ngẫu nhiên khi có mối quan hệ toán học." ví dụ: x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$
tò mò_

4
@cantly_cat: Hoặc, có lẽ thậm chí còn gợi hơn nữa, hãy bỏ yhoàn toàn. :-)
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.