Giải đoán hình học của nhiều hệ số tương quan


24

Tôi quan tâm đến ý nghĩa hình học của nhiều tương quan và hệ số xác định trong hồi quy hoặc trong ký hiệu vectơ,R 2 y i = β 1 + β 2 x 2 , i + + β k x k , i + ε iRR2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

Ở đây, ma trận thiết kế có hàng và cột, trong đó cột đầu tiên là , một vectơ 1 tương ứng với phần chặn . n k x 1 = 1 n β 1Xnkx1=1nβ1

Hình học thú vị hơn trong không gian chủ đề chiều hơn là trong không gian biến số . Xác định ma trận mũ:knk

H=X(XX)1X

Đây là một phép chiếu trực giao lên không gian cột của , tức là căn hộ thông qua gốc tọa độ được kéo dài bởi các vectơ đại diện cho mỗi biến , đầu tiên là . Sau đó H dự án vector của quan sát phản ứng y vào "cái bóng" của nó trên bằng phẳng, các vector của các giá trị được trang bị y = H y , và nếu chúng ta nhìn dọc theo con đường của các dự báo chúng ta thấy vector của dư e = y - yXx i 1 nkxi1nHyy^=Hye=yy^tạo thành cạnh thứ ba của một tam giác. Điều này sẽ cung cấp cho chúng tôi hai tuyến đường để giải thích hình học của R2 :

  1. Bình phương của hệ số tương quan nhiều, R , được định nghĩa là sự tương quan giữa yy . Điều này sẽ xuất hiện dưới dạng hình học như cosin của một góc.y^
  2. .SSresidual=i=1nei2=e2

Tôi sẽ rất vui mừng khi thấy một tài khoản ngắn gọn giải thích:

  • Các chi tiết tốt hơn cho (1) và (2),
  • Tại sao (1) và (2) là tương đương,
  • Tóm lại, làm thế nào cái nhìn sâu sắc hình học cho phép chúng ta hình dung các thuộc tính cơ bản của , ví dụ tại sao nó lại chuyển sang 1 khi phương sai tạp âm xuống 0. (Rốt cuộc, nếu chúng ta không thể hiểu được từ trực quan hóa của mình thì nó không hơn gì hình ảnh.)R2

Tôi đánh giá cao điều này đơn giản hơn nếu các biến được căn giữa trước, loại bỏ phần chặn khỏi câu hỏi. Tuy nhiên, trong hầu hết các tài khoản sách giáo khoa giới thiệu nhiều hồi quy, ma trận thiết kế như tôi đã trình bày. Tất nhiên sẽ ổn nếu một cuộc triển lãm đi sâu vào không gian được kéo dài bởi các biến trung tâm, nhưng để hiểu sâu hơn về đại số tuyến tính trong sách giáo khoa, sẽ rất hữu ích khi liên hệ lại điều này với những gì xảy ra về mặt hình học trong tình huống không tập trung. Một câu trả lời thực sự sâu sắc có thể giải thích chính xác những gì đang phá vỡ về mặt hình học khi thuật ngữ chặn bị bỏ - tức là khi vectơ 1 nX1n is removed from the spanning set. I don't think this last point can be addressed by considering the centred variables alone.

Câu trả lời:


47

Nếu có một số hạng không đổi trong mô hình thì nằm trong không gian cột của X (cũng như ˉ Y 1 n , sẽ có ích sau này). Các trang bị Y là chiếu trực giao của các quan sát Y vào căn hộ hình thành bởi không gian cột. Đây có nghĩa là các vector của dư e = y - y vuông góc với mặt phẳng, và do đó để 1 n . Xem xét sản phẩm chấm chúng ta có thể thấy n i = 1 e i = 0 , vì vậy các thành phần của1nXY¯1nY^Ye=yy^1ni=1nei=0e must sum to zero. Since Yi=Yi^+ei we conclude that i=1nYi=i=1nYi^ so that both fitted and observed responses have mean Y¯.

Vectors in subject space of multiple regression

The dashed lines in the diagram represent YY¯1n and Y^Y¯1n, which are the centered vectors for the observed and fitted responses. The cosine of the angle θ between these vectors will therefore be the correlation of Y and Y^, which by definition is the multiple correlation coefficient R. The triangle these vectors form with the vector of residuals is right-angled since Y^Y¯1n lies in the flat but e

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

We could also apply Pythagoras to the triangle:

YY¯1n2=YY^2+Y^Y¯1n2

Which may be more familiar as:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

This is the decomposition of the sums of squares, SStotal=SSresidual+SSregression.

The standard definition for the coefficient of determination is:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the "proportion of variance explained" formulation,

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives R2=1sin2(θ) and with basic trigonometry we can simplify this to cos2(θ). This is the link between R2 and R.

Note how vital it was for this analysis to have fitted an intercept term, so that 1n was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of Y. In that case we couldn't have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; R2 would not have had the frequently-quoted form SSreg/SStotal nor be the square of R. In this situation, some software (including R) uses a different formula for R2 altogether.


1
+1 Very nice write-up and figure. I am surprised that it only has my single lonely upvote.
amoeba says Reinstate Monica

2
+1. Note that the figure of your answer, with "column space X", Y, Ypred as vectors etc. is what is known in multivariate statistics as "(reduced) subject space representation" (see, with further links where I've used it).
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.