Độ tuyến tính của phương sai


15

Tôi nghĩ rằng hai công thức sau đây là đúng:

Var(aX)=a2Var(X)
trong khi a là số không đổi
Var(X+Y)=Var(X)+Var(Y)
nếuX ,Y độc lập

Tuy nhiên, tôi không chắc điều gì sai với phần dưới đây:

Var(2X)=Var(X+X)=Var(X)+Var(X)
không bằng22Var(X) , tức là4Var(X) .

Nếu giả sử X là mẫu được lấy từ dân số, tôi nghĩ chúng ta luôn có thể giả sử X độc lập với các khác X.

Vì vậy, có gì sai với sự nhầm lẫn của tôi?


8
Phương sai không phải là tuyến tính - câu lệnh đầu tiên của bạn cho thấy điều này (nếu có, bạn sẽ có . Mặt khác, hiệp phương sai là song tuyến.Var(aX)=aVar(X)
Batman

Câu trả lời:


33

Vấn đề với lý luận của bạn là

"Tôi nghĩ rằng chúng ta luôn có thể cho rằng độc lập với các X khác ."XX

không phải là độc lập với X . Ký hiệu X đang được sử dụng để chỉ cùng một biến ngẫu nhiên ở đây. Khi bạn biết giá trị của X đầu tiênxuất hiện trong công thức của mình, điều này cũng sửa giá trị của X thứ haixuất hiện. Nếu bạn muốn chúng tham chiếu đến các biến ngẫu nhiên riêng biệt (và có khả năng độc lập), bạn cần biểu thị chúng bằng các chữ cái khác nhau (ví dụ X Y ) hoặc sử dụng các chỉ số (ví dụ X 1 X 2 ); cái sau thường (nhưng không phải luôn luôn) được sử dụng để biểu thị các biến được rút ra từ cùng một phân phối.XXXXXXYX1X2

Nếu hai biến Y là độc lập sau đó Pr ( X = một | Y = b ) cũng giống như Pr ( X = một ) : biết giá trị của Y không cho chúng tôi bất kỳ thông tin bổ sung về giá trị của X . Nhưng Pr ( X = a | X = b )1 nếu a = b0 nếu không: biết giá trị của XXYPr(X=a|Y=b)Pr(X=a)YXPr(X=a|X=b)1a=b0Xcung cấp cho bạn thông tin đầy đủ về giá trị của . [Bạn có thể thay thế các xác suất trong đoạn này bằng các hàm phân phối tích lũy hoặc khi các hàm mật độ xác suất phù hợp, về cơ bản có cùng tác dụng.]X

Một cách khác để nhìn thấy điều là nếu hai biến độc lập sau đó họ có không tương quan (mặc dù không tương quan nào không bao hàm sự độc lập !) Nhưng một cách hoàn hảo tương quan với chính nó, Corr ( X , X ) = 1 nên X không thể độc lập Của chính nó. Lưu ý rằng kể từ khi hiệp phương sai được cho bởi COV ( X , Y ) = Corr ( X , Y ) XCorr(X,X)=1X , sau đóCOV(X,X)=1Cov(X,Y)=Corr(X,Y)Var(X)Var(Y)

Cov(X,X)=1Var(X)2=Var(X)

Công thức tổng quát hơn cho phương sai của tổng hai biến ngẫu nhiên là

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

Cụ thể, , vì vậyCov(X,X)=Var(X)

Var(X+X)=Var(X)+Var(X)+2Var(X)=4Var(X)

điều này giống như bạn đã suy luận từ việc áp dụng quy tắc

Var(aX)=a2Var(X)Var(2X)=4Var(X)

Nếu bạn quan tâm đến tính tuyến tính, thì bạn có thể quan tâm đến tính song phương của hiệp phương sai. Đối với các biến ngẫu nhiên , X , YZ (dù phụ thuộc hay độc lập) và hằng số a , b , cd chúng ta cóWXYZabcd

Cov(aW+bX,Y)=aCov(W,Y)+bCov(X,Y)

Cov(X,cY+dZ)=cCov(X,Y)+dCov(X,Z)

và tổng thể,

Cov(aW+bX,cY+dZ)=acCov(W,Y)+adCov(W,Z)+bcCov(X,Y)+bdCov(X,Z)

Sau đó, bạn có thể sử dụng điều này để chứng minh kết quả (phi tuyến tính) cho phương sai mà bạn đã viết trong bài đăng của mình:

Var(aX)=Cov(aX,aX)=a2Cov(X,X)=a2Var(X)

Var(aX+bY)=Cov(aX+bY,aX+bY)=a2Cov(X,X)+abCov(X,Y)+baCov(X,Y)+b2Cov(Y,Y)Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)

The latter gives, as a special case when a=b=1,

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

When X and Y are uncorrelated (which includes the case where they are independent), then this reduces to Var(X+Y)=Var(X)+Var(Y). So if you want to manipulate variances in a "linear" way (which is often a nice way to work algebraically), then work with the covariances instead, and exploit their bilinearity.


1
Yes! I think you pinpointed at the beginning that the confusion was essentially a notational one. I found it very helpful when one book (very explicitly, some might say laboriously) explained the interpretation of and rules of evaluating a probabilistic statement (so that, e.g., even if you know what you mean by Pr(X+X=n) where XUniform(1..6), it is technically incorrect if you're considering throwing a n in craps (and X+X=2X would never yield an odd roll); the event would be properly expressed using X1,X2 i.i.d.).
Vandermonde

1
This is in contrast to (and I think my misapprehension might have stemmed from) how 2+PRNG(6)+PRNG(6) often is how you would toss dice as above and/or notation/conventions such as 2d6=d6+d6 in which different instances are genuinely intended to be independent.
Vandermonde

@Vandermonde That's an interesting point. I initially considered mentioning the use of subscripts to distinguish between "different Xs" but didn't bother - think I might edit it in now. The argument that "you'd never get an odd total score if the sum was 2X" is very clear and convincing to someone who can't see the need to distinguish: thanks for sharing it.
Silverfish

0

Another way of thinking about it is that with random variables 2XX+X.

2X would mean two times the value of the outcome of X, while X+X would mean two trials of X. In other words, it's the difference between rolling a die once and doubling the result, vs rolling a die twice.


+1 This is a perfectly clear and correct answer. Welcome to our site!
whuber

Thanks @whuber!
Benjamin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.