Hiểu biết hình học về PCA trong không gian chủ đề (kép)


19

Tôi đang cố gắng để có được sự hiểu biết trực quan về cách phân tích thành phần chính (PCA) hoạt động trong không gian chủ đề (kép) .

Xem xét tập dữ liệu 2D có hai biến, và và điểm dữ liệu (ma trận dữ liệu là và được coi là trung tâm). Cách trình bày thông thường của PCA là chúng tôi xem xét điểm trong , viết ra ma trận hiệp phương sai và tìm giá trị riêng & giá trị riêng; PC đầu tiên tương ứng với hướng của phương sai tối đa, v.v ... Dưới đây là một ví dụ với ma trận hiệp phương sai . Các đường màu đỏ hiển thị các hàm riêng được chia tỷ lệ theo căn bậc hai của các giá trị riêng tương ứng.x1x2nXn×2nR22×2C=(4222)

PCA trong không gian mẫu

Bây giờ hãy xem xét những gì xảy ra trong không gian chủ đề (tôi đã học thuật ngữ này từ @ttnphns), còn được gọi là không gian kép (thuật ngữ được sử dụng trong học máy). Đây là một không gian ba chiều, nơi các mẫu của hai biến của chúng tôi (hai cột ) hình thức hai vectơ và . Độ dài bình phương của mỗi vectơ biến đổi bằng phương sai của nó, cosin của góc giữa hai vectơ bằng với tương quan giữa chúng. Đại diện này, bằng cách này, là rất tiêu chuẩn trong điều trị hồi quy bội. Trong ví dụ của tôi, không gian chủ đề trông như thế (tôi chỉ hiển thị mặt phẳng 2D được kéo dài bởi hai vectơ biến):nXx1x2

PCA trong không gian chủ đề 1

Các thành phần chính, là sự kết hợp tuyến tính của hai biến, sẽ tạo thành hai vectơ và trong cùng một mặt phẳng. Câu hỏi của tôi là: sự hiểu biết / trực giác hình học về cách hình thành các vectơ biến thành phần chính bằng cách sử dụng các vectơ biến ban đầu trên một biểu đồ như vậy là gì? Cho , quy trình hình học nào sẽ mang lại ?p1p2x1x2p1


Dưới đây là sự hiểu biết một phần hiện tại của tôi về nó.

Trước hết, tôi có thể tính toán các thành phần / trục chính thông qua phương thức tiêu chuẩn và vẽ chúng trên cùng một hình:

PCA trong không gian chủ đề 2

Hơn nữa, chúng ta có thể lưu ý rằng được chọn sao cho tổng khoảng cách bình phương giữa (vectơ màu xanh) và các phép chiếu của chúng trên là tối thiểu; những khoảng cách đó là lỗi tái cấu trúc và chúng được hiển thị với các đường đứt nét màu đen. Tương đương, tối đa hóa tổng độ dài bình phương của cả hai hình chiếu. Điều này chỉ định đầy đủ và tất nhiên là hoàn toàn tương tự với mô tả tương tự trong không gian chính (xem hoạt hình trong câu trả lời của tôi để hiểu về phân tích thành phần chính, hàm riêng & giá trị riêng ). Xem thêm phần đầu tiên của câu trả lời của @ ttnphns'es tại đây .p1xip1p1p1

Tuy nhiên, điều này là không đủ hình học! Nó không cho tôi biết cách tìm như vậy và không chỉ định độ dài của nó.p1

Tôi đoán là , , và đều nằm trên một hình elip có tâm ở với và là các trục chính của nó. Đây là cách nó trông giống như trong ví dụ của tôi:x 2 p 1 p 2 0 p 1 p 2x1x2p1p20p1p2

nhập mô tả hình ảnh ở đây

Câu 1: Làm thế nào để chứng minh điều đó? Trình diễn đại số trực tiếp dường như rất tẻ nhạt; Làm thế nào để thấy rằng đây phải là trường hợp?

Nhưng có nhiều hình elip khác nhau tập trung ở và đi qua x 1x 2 :0x1x2

nhập mô tả hình ảnh ở đây

Câu 2: Điều gì chỉ định hình elip "đúng"? Tôi đoán đầu tiên là đó là hình elip với trục chính dài nhất có thể; nhưng nó có vẻ sai (có những hình elip với trục chính có độ dài bất kỳ).

Nếu có câu trả lời cho Q1 và Q2, thì tôi cũng muốn biết liệu chúng có khái quát cho trường hợp có nhiều hơn hai biến không.


Có đúng là có nhiều hình elip có thể được đặt ở giữa gốc (nơi x1 & x2 giao nhau) và liên lạc với các đầu xa của x1 & x2 không? Tôi đã nghĩ rằng sẽ chỉ có một. Chắc chắn có thể có nhiều nếu bạn thư giãn 1 trong 3 tiêu chí đó (trung tâm, & 2 kết thúc).
gung - Phục hồi Monica

Có rất nhiều hình elip tập trung tại điểm gốc đi qua hai vectơ. Nhưng đối với các vectơ không cộng tuyến ( c , d ) chỉ có một vectơ đơn vị trong cơ sở kép. Đó là quỹ tích của x ( a , b ) + y ( c , d ) trong đó | ( a c b d ) - 1 ( x y ) | 2 = 1.(a,b)(c,d)x(a,b)+y(c,d)
|(acbd)1(xy)|2=1.
Nhiều thứ có thể học được từ các trục chính của nó.
whuber

3
variable space (I borrowed this term from ttnphns)- @amoeba, bạn phải nhầm. Các biến dưới dạng vectơ trong không gian n chiều (ban đầu) được gọi là không gian chủ thể (n chủ thể là trục "xác định" không gian trong khi p biến "trải" nó). Không gian biến đổi , ngược lại, ngược lại - tức là phân tán thông thường. Đây là cách thuật ngữ được thiết lập trong thống kê đa biến. (Nếu trong học máy thì khác - tôi không biết điều đó - thì nó tệ hơn nhiều đối với người học.)
ttnphns

Lưu ý rằng cả hai đều là không gian vectơ: vectơ (= điểm) là những gì kéo dài, trục là những gì xác định hướng và vết đo gấu. Cũng lưu ý phép biện chứng: cả hai "khoảng trắng" thực sự là cùng một không gian (chỉ được xây dựng khác nhau cho mục đích hiện tại). Nó được nhìn thấy, ví dụ, trên hình ảnh cuối cùng trong câu trả lời này . Khi bạn phủ hai công thức, bạn sẽ có được biplot hoặc không gian kép.
ttnphns

My guess is that x1, x2, p1, p2 all lie on one ellipseĐiều gì có thể là viện trợ heuristic từ hình elip ở đây? Tôi nghi ngờ điều đó.
ttnphns

Câu trả lời:


5

Tất cả các tóm tắt của hiển thị trong câu hỏi chỉ phụ thuộc vào khoảnh khắc thứ hai của nó; hay tương đương, trên ma trận X ' X . Bởi vì chúng tôi đang nghĩ đến X là một điểm đám mây điểm --each là một dãy X --we có thể yêu cầu những gì hoạt động đơn giản bằng các điểm bảo quản tài sản của X ' X .XXXXXXX

Một là trái nhân bởi một n × n ma trận U , mà sẽ tạo ra một n × 2 ma trận U X . Để làm việc này, điều cần thiết làXn×nUn×2UX

XX=(UX)UX=X(UU)X.

Bình đẳng được đảm bảo khi n × n ma trận sắc: đó là, khi Utrực giao .UUn×nU

Người ta đã biết (và dễ dàng chứng minh) rằng ma trận trực giao là sản phẩm của phản xạ và phép quay Euclide (chúng tạo thành một nhóm phản xạ trong ). Bằng cách lựa chọn một cách khôn ngoan quay, chúng ta có thể đơn giản hóa đáng kể X . Một ý tưởng là tập trung vào các phép quay chỉ ảnh hưởng đến hai điểm trên đám mây. Đây là đặc biệt đơn giản, bởi vì chúng ta có thể hình dung chúng.RnX

Cụ thể, chúng ta hãy ( x j , y j ) có hai điểm khác không phân biệt trong các đám mây, tạo thành hàng ij của X . Một vòng quay của không gian cột R n chỉ ảnh hưởng đến hai điểm này chuyển đổi chúng thành(xi,yi)(xj,yj)ijXRn

{(xi,yi)=(cos(θ)xi+sin(θ)xj,cos(θ)yi+sin(θ)yj)(xj,yj)=(sin(θ)xi+cos(θ)xj,sin(θ)yi+cos(θ)yj).

Điều này có một lượng để được vẽ các vectơ ( y i , y j ) trong mặt phẳng và xoay chúng theo góc θ . (Chú ý cách thức phối hợp được trộn lên đây! Các x 's đi với nhau và y ' s đi cùng nhau. Do đó, ảnh hưởng của luân chuyển này trong R n thường sẽ không trông giống như một vòng quay của vectơ ( x i , y i )( x j , y j )(xi,xj)(yi,yj)θxyRn(xi,yi)(xj,yj) như được vẽ trong R2 )

Bằng cách chọn góc vừa phải, chúng ta có thể loại bỏ bất kỳ một trong những thành phần mới này. Để cụ thể, hãy chọn sao choθ

{cos(θ)=±xixi2+xj2sin(θ)=±xjxi2+xj2.

Điều này làm cho . Chọn dấu để làm cho y ' j0 . Hãy gọi hoạt động này, làm thay đổi điểm ij trong đám mây đại diện bởi X , γ ( i , j ) .xj=0yj0ijXγ(i,j)

Đệ quy áp dụng để X sẽ làm cho cột đầu tiên của X là khác không chỉ ở hàng đầu tiên. Về mặt hình học, chúng ta sẽ di chuyển tất cả trừ một điểm trên đám mây lên trục y . Bây giờ chúng tôi có thể áp dụng một vòng quay duy nhất, có khả năng liên quan đến tọa độ 2 , 3 , , n trong R n , để nén các n đóγ(1,2),γ(1,3),,γ(1,n)XXy2,3,,nRn điểm xuống một điểm duy nhất. Tương đương, X đã được giảm xuống dưới dạng khốin1X

X=(x1y10z),

với z cả hai vectơ cột có tọa độ n - 1 , theo cách đó0zn1

XX=((x1)2x1y1x1y1(y1)2+||z||2).

Vòng quay cuối cùng này tiếp tục giảm về dạng tam giác trên của nóX

X=(x1y10||z||0000).

X2×2 matrix (x1y10||z||) created by the last two nonzero points left standing.

To illustrate, I drew four iid points from a bivariate Normal distribution and rounded their values to

X=(0.090.120.310.630.740.231.80.39)

This initial point cloud is shown at the left of the next figure using solid black dots, with colored arrows pointing from the origin to each dot (to help us visualize them as vectors).

Figure

The sequence of operations effected on these points by γ(1,2),γ(1,3), and γ(1,4) results in the clouds shown in the middle. At the very right, the three points lying along the y axis have been coalesced into a single point, leaving a representation of the reduced form of X. The length of the vertical red vector is ||z||; the other (blue) vector is (x1,y1).

Notice the faint dotted shape drawn for reference in all five panels. It represents the last remaining flexibility in representing X: as we rotate the first two rows, the last two vectors trace out this ellipse. Thus, the first vector traces out the path

(1)θ  (cos(θ)x1,cos(θ)y1+sin(θ)||z||)

while the second vector traces out the same path according to

(2)θ  (sin(θ)x1,sin(θ)y1+cos(θ)||z||).

We may avoid tedious algebra by noting that because this curve is the image of the set of points {(cos(θ),sin(θ)):0θ<2π} under the linear transformation determined by

(1,0)  (x1,0);(0,1)  (y1,||z||),

it must be an ellipse. (Question 2 has now been fully answered.) Thus there will be four critical values of θ in the parameterization (1), of which two correspond to the ends of the major axis and two correspond to the ends of the minor axis; and it immediately follows that simultaneously (2) gives the ends of the minor axis and major axis, respectively. If we choose such a θ, the corresponding points in the point cloud will be located at the ends of the principal axes, like this:

Figure 2

Because these are orthogonal and are directed along the axes of the ellipse, they correctly depict the principal axes: the PCA solution. That answers Question 1.


The analysis given here complements that of my answer at Bottom to top explanation of the Mahalanobis distance. There, by examining rotations and rescalings in R2, I explained how any point cloud in p=2 dimensions geometrically determines a natural coordinate system for R2. Here, I have shown how it geometrically determines an ellipse which is the image of a circle under a linear transformation. This ellipse is, of course, an isocontour of constant Mahalanobis distance.

Another thing accomplished by this analysis is to display an intimate connection between QR decomposition (of a rectangular matrix) and the Singular Value Decomposition, or SVD. The γ(i,j) are known as Givens rotations. Their composition constitutes the orthogonal, or "Q", part of the QR decomposition. What remained--the reduced form of X--is the upper triangular, or "R" part of the QR decomposition. At the same time, the rotation and rescalings (described as relabelings of the coordinates in the other post) constitute the DV part of the SVD, X=UDV. The rows of U, incidentally, form the point cloud displayed in the last figure of that post.

Finally, the analysis presented here generalizes in obvious ways to the cases p2: that is, when there are just one or more than two principal components.


Though your answer may be exemplary on it own it is unclear - to me - how it relates to the question. You are speaking throughout about the data cloud X (and vectors you rotate are data points, rows of X). But the question was about the reduced subject space. In other words, we don't have any data X, we have only 2x2 covariance or scatter matrix X'X.
ttnphns

(cont.) We represent the 2 variables summarized by it as 2 vectors with lengths = sqrt(diagonal elements) and angle = their correlation. Then the OP askes how can we purely geometrically solve for the principal components. In other words, OP wants to explain geometrically eigendecomposition (eigenvalues & eigenvectors or, better, loadings) of 2x2 symmetric covariance matrix.
ttnphns

(cont.) Please look on the second picture there. What the OP of the current question seeks for is to find geometric (trigonometric etc) tools or tricks to draw the vectors P1 and P2 on that pic, having only vectors X and Y as given.
ttnphns

1
@ttnphns. It doesn't matter what the starting point is: the first half of this answer shows that you can reduce any point cloud X to a pair of points which contain all the information about XX. The second half demonstrates that pair of points is not unique, but nevertheless each lies on the same ellipse. It gives an explicit construction of that ellipse beginning with any two-point representation of XX (such as the pair of blue vectors shown in the question). Its major and minor axes yield the PCA solution (the red vectors).
whuber

1
Thanks, I'm beginning to understand your thought. (I wish you added subtitles / synopsis right in your answer about the two "halves" of it, just to structure it for a reader.)
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.