Tại sao hệ số tương quan giữa các biến ngẫu nhiên X và XY có xu hướng là 0,7

49

Lấy từ số liệu thống kê thực tế cho nghiên cứu y học nơi Douglas Altman viết ở trang 285:

... Với hai đại lượng bất kỳ X và Y, X sẽ tương quan với XY. Thật vậy, ngay cả khi X và Y là mẫu của các số ngẫu nhiên, chúng ta sẽ mong đợi mối tương quan của X và XY là 0,7

Tôi đã thử điều này trong R và có vẻ như là trường hợp:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

Tại sao vậy? Lý thuyết đằng sau điều này là gì?

correlation random-variable intuition

— không có cổ phần
nguồn

Phần nào bạn muốn một lời giải thích cho? Bạn có muốn phương trình đơn giản hóa cho mối tương quan có kết quả vì mối tương quan đã biết giữa x và y và hiệp phương sai giữa x và xy không? Hoặc, bạn chỉ muốn biết tại sao có bất kỳ hiệp phương sai nào ở đây không?

— John

Điều này có đúng với bất kỳ

và

nào không? Giả sử

và

là không tương quan và để cho

. Sau đó, tôi nghi ngờ

sẽ không được tương quan với

.

X

$X$

Y

$Y$

X

$X$

Z

$Z$

Y = X - Z

$Y=X-Z$

X

$X$

X - Y

$X-Y$

— Henry

69

Nếu và là không tương quan biến ngẫu nhiên với phương sai bằng , sau đó chúng tôi có mà $X$ $Y$ $\sigma^2$ Do đó,

\begin{aligned} var (X - Y) & = var (X) + var (- Y) \\ = var (X) + var (Y) \\ = 2 σ^{2}, \\ cov (X, X - Y) & = cov (X, X) - cov (X, Y) & bilinearity of covariance operator \\ = var (X) - 0 & 0 because X and Y are uncorrelated \\ = σ^{2} . \end{aligned}

$\begin{align} \operatorname{var}(X-Y) &= \operatorname{var}(X) + \operatorname{var}(-Y)\\ &= \operatorname{var}(X) + \operatorname{var}(Y)\\ &=2\sigma^2,\\ \operatorname{cov}(X, X-Y) &= \operatorname{cov}(X,X) - \operatorname{cov}(X,Y) & \text{bilinearity of covariance operator}\\ &= \operatorname{var}(X) - 0 & 0 ~\text{because}~X ~\text{and}~ Y ~\text{are uncorrelated}\\ &= \sigma^2. \end{align}$

Vì vậy, khi bạn tìm thấy

ρ_{X, X - Y} = \frac{cov (X, X - Y)}{\sqrt{var (X) var (X - Y)}} = \frac{σ^{2}}{\sqrt{σ^{2} \cdot 2 σ^{2}}} = \frac{1}{\sqrt{2}} .

$\rho_{X,X-Y} = \frac{\operatorname{cov}(X, X-Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(X-Y)}}= \frac{\sigma^2}{\sqrt{\sigma^2\cdot2\sigma^2}} = \frac{1}{\sqrt{2}}.$

tương quan mẫu của

và

cho một tập dữ liệu lớn

\frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) ((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}{\sqrt{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2} \sum_{i = 1}^{n} {((x_{i} - y_{i}) - (\bar{x} - \bar{y}))}^{2}}}

$\frac{\sum_{i=1}^n\left(x_i - \bar{x}\right) \left((x_i-y_i) - (\bar{x}-\bar{y})\right)}{ \sqrt{\sum_{i=1}^n\left(x_i - \bar{x}\right)^2 \sum_{i=1}^n\left((x_i-y_i) - (\bar{x}-\bar{y})\right)^2}}$

x

$x$

x - y

$x-y$

được rút ra từ một quần thể có các tính chất này, bao gồm "số ngẫu nhiên" là trường hợp đặc biệt, kết quả có xu hướng gần với giá trị tương quan dân số

{(x_{i}, y_{i}) : 1 \leq i \leq n}

$\{(x_i,y_i)\colon 1 \leq i \leq n\}$

\frac{1}{\sqrt{2}} \approx 0.7071 \dots

$\frac{1}{\sqrt{2}} \approx 0.7071\ldots$

— Dilip Sarwate
nguồn

Bạn có thể vui lòng giải thích thêm một chút về cách thức khôngcov(X,X)-cov(X,Y)=s^2

— nostock

5

cov (X, X) là tên gọi khác của var (X). cov (X, Y) = 0 vì X và Y được coi là không tương quan (do đó hiệp phương sai = 0).

— Dilip Sarwate

58

Một giải thích thống kê hình học.

$n$ $2$ $X$ $Y$ $X$ $Y$

$X$ $Y$ $r=0$

$X$ $Y$

$X-Y$ $X+Y$

$X-Y$ $X+Y$ $\sqrt{2\sigma^2}$ $X$ $X-Y$ $X+Y$ $0.707...$

nhập mô tả hình ảnh ở đây

— ttnphns
nguồn

4

+1 lớn để chia sẻ phương pháp này.

— whuber

(+1) Đó là một cách trình bày rất gọn gàng này!

— Matt Krause

À ... hình ảnh! (+1) Làm tốt lắm. :-)

— Đức hồng y

11

Tôi tin rằng cũng có một trực giác đơn giản dựa trên tính đối xứng ở đây. Do X và Y có cùng phân phối và có hiệp phương sai bằng 0, nên mối quan hệ của X ± Y với X sẽ "giải thích" một nửa biến thể trong X ± Y; nửa còn lại phải được giải thích bởi Y. Vậy R ² phải là 1/2, có nghĩa là R là 1 / √2 0,707.

— denn333
nguồn

r^{2} = \frac{1}{2}

$r^2=\frac 1 2$

r

$r$

\sqrt{1 / 2}

$\sqrt{1/2}$

1 / \sqrt{2}

$1/\sqrt 2$

Không, đó thực sự không phải là tiêu chuẩn hơn. (Nếu bạn cần bằng chứng, hãy tìm kiếm câu trả lời hàng đầu. 38 người đã bỏ phiếu cho nó không ngụy biện với cùng một ký hiệu.)

— denn333

r^{2} = 1 / 2

$r^2=1/2$

r = \sqrt{1 / 2}

$r=\sqrt{1/2}$

3

Đây là một cách đơn giản để suy nghĩ về lý do tại sao có một mối tương quan ở đây.

Hãy tưởng tượng những gì diễn ra khi bạn trừ hai phân phối. Nếu giá trị của x thấp thì trung bình x - ysẽ là giá trị thấp hơn nếu giá trị của x cao. Khi x tăng thì x - ytăng, trung bình, và do đó, một mối tương quan tích cực.

— John
nguồn

4

Tôi không nghĩ tuyên bố của bạn luôn đúng "Sẽ luôn có mối tương quan giữa hai phân phối ngẫu nhiên khi có mối quan hệ toán học." ví dụ: x <- rnorm(1e6, 0,1) y <- rnorm(1e6, 0,1) $cor((x-y)^2,x-y)$

— tò mò_

4

@cantly_cat: Hoặc, có lẽ thậm chí còn gợi hơn nữa, hãy bỏ yhoàn toàn. :-)

— Đức hồng y