Trực giác (hình học hoặc khác) của


18

Xem xét bản sắc cơ bản của phương sai:

Var(X)=E[(XE[X])2]=...=E[X2](E[X])2

Đó là một thao tác đại số đơn giản của định nghĩa về một khoảnh khắc trung tâm thành những khoảnh khắc không trung tâm.

Nó cho phép thao tác thuận tiện của trong các bối cảnh khác. Nó cũng cho phép tính toán phương sai thông qua một lần truyền dữ liệu thay vì hai lần truyền, trước tiên để tính giá trị trung bình và sau đó để tính phương sai.Var(X)

Nhưng nó có nghĩa là gì? Đối với tôi không có trực giác hình học ngay lập tức liên quan đến sự lan truyền về giá trị trung bình lan truyền khoảng 0. Vì là một tập hợp trên một chiều duy nhất, làm thế nào để bạn xem sự lan truyền xung quanh một ý nghĩa như sự khác biệt giữa lan truyền xung quanh gốc tọa độ và bình phương của nghĩa là?X

Có bất kỳ giải thích đại số tuyến tính tốt hoặc giải thích vật lý hoặc khác sẽ cung cấp cái nhìn sâu sắc về bản sắc này?


7
Gợi ý: đây là Định lý Pythagore.
whuber

1
@Matthew Tôi tự hỏi " " có nghĩa là gì. Tôi nghi ngờ đó không phải là một kỳ vọng, mà chỉ là tốc ký cho ý nghĩa số học. Mặt khác, các phương trình sẽ không chính xác (và gần như vô nghĩa, vì khi đó chúng sẽ đánh đồng các biến ngẫu nhiên với các số). E
whuber

2
@whuber Vì các sản phẩm bên trong đưa ra ý tưởng về khoảng cách và góc và sản phẩm bên trong không gian vectơ của các biến ngẫu nhiên có giá trị thực được định nghĩa là (?), tôi tự hỏi liệu một số trực giác hình học có thể được đưa ra thông qua bất đẳng thức tam giác. Tôi không biết làm thế nào để tiến hành, nhưng tôi đã tự hỏi nếu nó có ý nghĩa gì. E[XY]
Antoni Parellada

1
@Antoni Bất đẳng thức tam giác quá chung chung. Một sản phẩm bên trong là một đối tượng đặc biệt hơn nhiều. May mắn thay, trực giác hình học thích hợp chính xác là hình học Euclide. Hơn nữa, ngay cả trong trường hợp biến ngẫu nhiên Y , hình học cần thiết có thể được giới hạn trong không gian vectơ thực hai chiều được tạo bởi XY : nghĩa là, đối với chính mặt phẳng Euclide. Trong trường hợp hiện tại X dường như không phải là RV: nó chỉ là một n -vector. Ở đây, không gian được kéo dài bởi X( 1 , 1 , Mạnh , 1 )XYXYXnX(1,1,,1)là mặt phẳng Euclide trong đó tất cả các hình học xảy ra.
whuber

3
Thiết β 1 = 0 trong trả lời tôi liên kết với, và chia mọi điều khoản của n (nếu bạn muốn) sẽ cung cấp cho bạn các giải pháp đại số đầy đủ cho phương sai: không có lý do để sao chép nó trên một lần nữa. Đó là vì β 0 là giá trị trung bình cộng của y , từ đâu | | y - y | | 2 chỉ bằng n lần phương sai như bạn đã định nghĩa ở đây, | | y | | 2n lần so với trung bình cộng bình phương, và |β^1=0nβ^0y||yy^||2n||y^||2n n lần so với trung bình cộng của các giá trị bình phương. ||y||2n
whuber

Câu trả lời:


21

Mở rộng quan điểm của @ whuber trong các bình luận, nếu Z là trực giao, bạn có Định lý Pythagore :YZ

Y2+Z2=Y+Z2

Quan sát rằng là một giá trị sản phẩm nộiY = Y,ZE[YZ]chỉ tiêu gây ra bởi sản phẩm bên trong đó.Y=E[Y2]

Đặt là một số biến ngẫu nhiên. Đặt Y = E [ X ] , Đặt Z = X - E [ X ] . Nếu YZ trực giao:XY=E[X]Z=XE[X]YZ

Y2+Z2=Y+Z2E[E[X]2]+E[(XE[X])2]=E[X2]E[X]2+Var[X]=E[X2]

Và thật dễ dàng để chỉ ra rằng Z = X - E [ X ]trực giao trong sản phẩm bên trong này:Y=E[X]Z=XE[X]

Y,Z=E[E[X](XE[X])]=E[X]2E[X]2=0

Một trong những chân của tam giác là , chân còn lại là E [ X ] , và cạnh huyền là X . Và định lý Pythagore có thể được áp dụng vì một biến ngẫu nhiên được hạ thấp là trực giao với ý nghĩa của nó.XE[X]E[X]X


Nhận xét kỹ thuật:

trong ví dụ này thực sự sẽ là vector Y = E [ X ] 1 , có nghĩa là, vô hướng E [ X ] lần so với vector không đổi 1 (ví dụ 1 = [ 1 , 1 , 1 , ... , 1 ] ' trong rời rạc , trường hợp kết quả hữu hạn). Yhình chiếu vectơcủa X lên vectơ không đổi 1 .YY=E[X]1E[X]11=[1,1,1,,1]YX1

Ví dụ đơn giản

Hãy xem xét trường hợp biến ngẫu nhiên Bernoulli trong đó p = .2 . Chúng ta có:Xp=.2

X=[10]P=[.2.8]E[X]=iPiXi=.2

Y=E[X]1=[.2.2]Z=XE[X]=[.8.2]

Và hình ảnh là: nhập mô tả hình ảnh ở đây

Độ lớn bình phương của vectơ đỏ là phương sai của , độ lớn bình phương của vectơ màu xanh là E [ X ] 2 và độ lớn bình phương của vectơ màu vàng là E [ X 2 ] .XE[X]2E[X2]

NHỚ dù rằng những cường độ, tính trực giao vv ... không liên quan đến việc chấm sản phẩm thông thường với nhưng bên trong sản phẩm Σ i P i Y i Z i . Độ lớn của vectơ màu vàng không phải là 1, nó là .2.iYiZiiPiYiZi

Vectơ đỏ và vectơ màu xanh Z = X - E [ X ] vuông góc với sản phẩm bên trong i P i Y i Z i nhưng chúng không vuông góc theo nghĩa giới thiệu, hình học trung học. Hãy nhớ rằng chúng tôi không sử dụng sản phẩm chấm thông thường i Y i Z i làm sản phẩm bên trong!Y=E[X]Z=XE[X]iPiYiZiiYiZi


Đó là thực sự tốt!
Antoni Parellada

1
Câu trả lời hay (+1), nhưng nó thiếu một con số, và cũng có thể hơi khó hiểu cho OP vì Z của bạn là X của họ ...
amip nói rằng Rebstate Monica

@MatthewGunn, câu trả lời tuyệt vời. bạn có thể kiểm tra câu trả lời của tôi dưới đây để biết đại diện trong đó tính trực giao theo nghĩa Euclide.
YBE

Tôi ghét bị làm phiền, nhưng tôi gặp khó khăn trong việc giữ , V a r ( X ) và hướng logic ('bởi vì' đến những nơi không có ý nghĩa với tôi). Nó cảm thấy như rất nhiều sự thật (được chứng minh rõ ràng) được nêu ngẫu nhiên. Không gian nào là sản phẩm bên trong? Tại sao 1 ? ZVar(X)
Mitch

@Mitch Thứ tự logic là: (1) Quan sát rằng một không gian xác suất xác định một không gian vectơ; chúng ta có thể coi các biến ngẫu nhiên là vectơ. (2) Xác định sản phẩm bên trong của các biến ngẫu nhiên ZE [ Y Z ] . Trong một không gian sản phẩm bên trong, vectơ YZ được định nghĩa là trực giao nếu sản phẩm bên trong của chúng bằng không. (3a) Gọi X là một số biến ngẫu nhiên. (3b) Đặt Y = E [ X ]Z = X - E [ X ] . (4) Quan sát rằng YZYZE[YZ]YZXY=E[X]Z=XE[X]YZđịnh nghĩa theo cách này là trực giao. (5) Vì Z là trực giao nên định lý pythagore áp dụng (6) Bằng đại số đơn giản, định lý Pythagore tương đương với định danh. YZ
Matthew Gunn

7

Tôi sẽ đi cho một cách tiếp cận hình học thuần túy cho một kịch bản rất cụ thể. Chúng ta hãy xem xét một biến ngẫu nhiên có giá trị riêng biệt lấy các giá trị { x 1 , x 2 } với xác suất ( p 1 , p 2 ) . Chúng tôi sẽ tiếp tục cho rằng biến ngẫu nhiên này có thể được trình bày trong R 2 là một vector, X = ( x 1 X{x1,x2}(p1,p2)R2. X=(x1p1,x2p2)enter image description here

Lưu ý rằng bình phương dài của x 2 1 p 1 + x 2 2 p 2 bằng với E [ X 2 ] . Như vậy, X = Xx12p1+x22p2E[X2] .X=E[X2]

Since p1+p2=1, the tip of vector X actually traces an ellipse. This becomes easier to see if one reparametrizes p1 and p2 as cos2(θ) and sin2(θ). Hence, we have p1=cos(θ) and p2=sin(θ).

One way of drawing ellipses is via a mechanism called Trammel of Archimedes. As described in wiki: It consists of two shuttles which are confined ("trammelled") to perpendicular channels or rails, and a rod which is attached to the shuttles by pivots at fixed positions along the rod. As the shuttles move back and forth, each along its channel, the end of the rod moves in an elliptical path. This principle is illustrated in the figure below.

Now let us geometrically analyze one instance of this trammel when the vertical shuttle is at A and the horizontal shuttle is at B forming an angle of θ. Due to construction, |BX|=x2 and |AB|=x1x2, θ (here x1x2 is assumed wlog).

enter image description here

Let us draw a line from origin, OC, that is perpendicular to the rod. One can show that |OC|=(x1x2)sin(θ)cos(θ). For this specific random variable

Var(X)=(x12p1+x22p2)(x1p1+x2p2)2=x12p1+x22p2x12p12x22p222x1x2p1p2=x12(p1p12)+x22(p2p22)2x1x2p1p2=p1p2(x122x1x2+x22)=[(x1x2)p1p2]2=|OC|2
Therefore, the perpendicular distance |OC| from the origin to the rod is actually equal to the standard deviation, σ.

If we compute the length of segment from C to X:

|CX|=x2+(x1x2)cos2(θ)=x1cos2(θ)+x2sin2(θ)=x1p1+x2p2=E[X]

Applying the Pythagorean Theorem in the triangle OCX, we end up with

E[X2]=Var(X)+E[X]2.

To summarize, for a trammel that describes all possible discrete valued random variables taking values {x1,x2}, E[X2] is the distance from the origin to the tip of the mechanism and the standard deviation σ is the perpendicular distance to the rod.

Note: Notice that when θ is 0 or π/2, X is completely deterministic. When θ is π/4 we end up with maximum variance.


1
+1 Nice answer. And multiplying vectors by the square of the probabilities is a cool/useful trick to make the usual probabilistic notion of orthogonality look orthogonal!
Matthew Gunn

Great graphics. The symbols all make sense (the trammel describing an ellipse and then the Pythagorean Thm applies) but somehow I'm not getting intuitively how it gives an idea of how 'magically' it relates the moments (the spread and center.
Mitch

consider the trammel as a process that defines all the possible (x1,x2) valued random variables. When the rod is horizontal or vertical you have a deterministic RV. In the middle there is randomness and it turns out that in my proposed geometric framework how random a RV (its std) is exactly measured by the distance of the rod to the origin. There might be a deeper relationship here as elliptic curves connects various objects in math but I am not a mathematician so I cannot really see that connection.
YBE

3

You can rearrange as follows:

Var(X)=E[X2](E[X])2E[X2]=(E[X])2+Var(X)

Then, interpret as follows: the expected square of a random variable is equal to the square of its mean plus the expected squared deviation from its mean.


Oh. Huh. Simple. But the squares still seem kinda uninterpreted. I mean it makes sense (sort of, extremely loosely) without the squares.
Mitch

3
I am not sold on this.
Michael R. Chernick

1
If the Pythagorean theorem applies, what is the triangle with what sides and how are the two legs perpendicular?
Mitch

1

Sorry for not having the skill to elaborate and provide a proper answer, but I think the answer lies in the physical classical mechanics concept of moments, especially the conversion between 0 centred "raw" moments and mean centred central moments. Bear in mind that variance is the second order central moment of a random variable.


1

The general intuition is that you can relate these moments using the Pythagorean Theorem (PT) in a suitably defined vector space, by showing that two of the moments are perpendicular and the third is the hypotenuse. The only algebra needed is to show that the two legs are indeed orthogonal.

For the sake of the following I'll assume you meant sample means and variances for computation purposes rather than moments for full distributions. That is:

E[X]=1nxi,mean,first central sample momentE[X2]=1nxi2,second sample moment (noncentral)Var(X)=1n(xiE[X])2,variance,second central sample moment

(where all sums are over n items).

For reference, the elementary proof of Var(X)=E[X2]E[X]2 is just symbol pushing:

Var(X)=1n(xiE[X])2=1n(xi22E[X]xi+E[X]2)=1nxi22nE[X]xi+1nE[X]2=E[X2]2E[X]2+1nnE[X]2=E[X2]E[X]2

There's little meaning here, just elementary manipulation of algebra. One might notice that E[X] is a constant inside the summation, but that is about it.

Now in the vector space/geometrical interpretation/intuition, what we'll show is the slightly rearranged equation that corresponds to PT, that

Var(X)+E[X]2=E[X2]

So consider X, the sample of n items, as a vector in Rn. And let's create two vectors E[X]1 and XE[X]1.

The vector E[X]1 has the mean of the sample as every one of its coordinates.

The vector XE[X]1 is x1E[X],,xnE[X].

These two vectors are perpendicular because the dot product of the two vectors turns out to be 0:

E[X]1(XE[X]1)=E[X](xiE[X])=(E[X]xiE[X]2)=E[X]xiE[X]2=nE[X]E[X]nE[X]2=0

So the two vectors are perpendicular which means they are the two legs of a right triangle.

Then by PT (which holds in Rn), the sum of the squares of the lengths of the two legs equals the square of the hypotenuse.

By the same algebra used in the boring algebraic proof at the top, we showed that we get that E[X2] is the square of the hypotenuse vector:

(XE[X])2+E[X]2=...=E[X2] where squaring is the dot product (and it's really E[x]1 and (XE[X])2 is Var(X).

The interesting part about this interpretation is the conversion from a sample of n items from a univariate distribution to a vector space of n dimensions. This is similar to n bivariate samples being interpreted as really two samples in n variables.

In one sense that is enough, the right triangle from vectors and E[X2] pops out as the hypotnenuse. We gave an interpretation (vectors) for these values and show they correspond. That's cool enough, but unenlightening either statistically or geometrically. It wouldn't really say why and would be a lot of extra conceptual machinery to, in the end mostly, reproduce the purely algebraic proof we already had at the beginning.

Another interesting part is that the mean and variance, though they intuitively measure center and spread in one dimension, are orthogonal in n dimensions. What does that mean, that they're orthogonal? I don't know! Are there other moments that are orthogonal? Is there a larger system of relations that includes this orthogonality? central moments vs non-central moments? I don't know!


I am also interested in an interpretation/intuition behind the superficially similar bias variance tradeoff equation. Does anybody have hints there?
Mitch

Let pi be the probability of state i occurring. If pi=1n then ipiXiYi=1niXiYi, that is, E[XY] is simply the dot product between X and Y divided by n. If ipi=1n, what I used as an inner product ( E[XY]=ipiXiYi) is basically the dot product divided by n. This whole Pythagorean interpretation still needs to you use the particular inner product E[XY] (though it's algebriacly close to the classic dot product for a probability measure P such that ipi=1n).
Matthew Gunn

Btw, the trick @YBE did is to define new vectors x^ and y^ such that x^i=xipi and y^i=xipi. Then dot product x^y^=ixipiyipi=ipixiyi=E[xy].The dot product of x^ and y^ corresponds to E[xy] (which is what I used as an inner product).
Matthew Gunn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.