Phân tích thành phần chính trong trò chơi ngược về phía trước: có bao nhiêu phương sai của dữ liệu được giải thích bởi sự kết hợp tuyến tính nhất định của các biến?


17

Tôi đã thực hiện một bộ phận phân tích chính gồm sáu biến Một , B , C , D , EF . Nếu tôi hiểu chính xác, PC1 không được bảo vệ sẽ cho tôi biết tổ hợp tuyến tính nào của các biến này mô tả / giải thích phương sai nhất trong dữ liệu và PC2 cho tôi biết tổ hợp tuyến tính nào của các biến này mô tả phương sai nhất tiếp theo trong dữ liệu, v.v.

Tôi chỉ tò mò - có cách nào để làm điều này "ngược" không? Giả sử tôi chọn một số kết hợp tuyến tính của các biến này - ví dụ Một+2B+5C , tôi có thể tìm ra bao nhiêu phương sai trong dữ liệu này mô tả không?


7
Nghiêm túc, PC2 là sự kết hợp tuyến tính trực giao với PC1 , mô tả phương sai nhất tiếp theo trong dữ liệu.
Henry

1
Bạn đang cố gắng ước tính Vmộtr(Một+2B+5C) ?
vqv

Tất cả các câu trả lời hay (ba + 1s). Tôi tò mò về ý kiến ​​của mọi người về việc liệu vấn đề được giải quyết có thể giải quyết được thông qua các cách tiếp cận biến tiềm ẩn (SEM / LVM) hay không, nếu chúng ta xem xét một hoặc nhiều biến tiềm ẩn "sự kết hợp tuyến tính của các biến".
Alexanderr Blekh

1
@Aleksandr, câu trả lời của tôi thực sự trực tiếp mâu thuẫn với hai người kia. Tôi đã chỉnh sửa câu trả lời của mình để làm rõ sự bất đồng (và dự định chỉnh sửa nó thêm để đánh vần toán học). Hãy tưởng tượng một bộ dữ liệu với hai biến giống hệt chuẩn X= =Y . Có bao nhiêu phương sai được mô tả bởi X ? Hai giải pháp khác cho 50% . Tôi cho rằng câu trả lời đúng là 100% .
amip nói rằng Phục hồi Monica

1
@amoeba: Mặc dù vẫn cố gắng để hiểu tài liệu hoàn toàn, tôi hiểu rằng câu trả lời của bạn là khác nhau. Khi tôi nói "tất cả các câu trả lời hay", tôi ngụ ý rằng tôi thích mức độ của các câu trả lời, chứ không phải tính chính xác của chúng . Tôi thấy rằng nó có giá trị giáo dục đối với những người như tôi, những người đang thực hiện nhiệm vụ tự giáo dục ở đất nước địa hình gồ ghề, được gọi là Thống kê :-). Hy vọng nó có ý nghĩa.
Alexanderr Blekh

Câu trả lời:


11

Nếu chúng ta bắt đầu với tiền đề rằng tất cả các biến đã được tập trung (thực hành tiêu chuẩn trong PCA), thì tổng phương sai trong dữ liệu chỉ là tổng bình phương:

T= =ΣTôi(MộtTôi2+BTôi2+CTôi2+DTôi2+ETôi2+FTôi2)

Điều này bằng với dấu vết của ma trận hiệp phương sai của các biến, bằng tổng giá trị riêng của ma trận hiệp phương sai. Đây là cùng một số lượng mà PCA nói về "giải thích dữ liệu" - tức là bạn muốn PC của bạn giải thích tỷ lệ lớn nhất của các yếu tố đường chéo của ma trận hiệp phương sai. Bây giờ nếu chúng ta biến điều này thành một hàm mục tiêu cho một tập hợp các giá trị dự đoán như vậy:

S= =ΣTôi([MộtTôi-Một^Tôi]2++[FTôi-F^Tôi]2)

Sau đó, các thành phần chính nhằm làm giảm tối đầu tiên trong số tất cả bậc 1 giá trị được trang bị ( Một i , ... , F i ) . Vì vậy, có vẻ như số lượng thích hợp bạn theo sau là P = 1 - SS(Một^Tôi,Giáo dục,F^Tôi) Để sử dụng ví dụ của bạnA+2B+5C, chúng ta cần biến phương trình này thành dự đoán xếp hạng 1. Trước tiên, bạn cần bình thường hóa các trọng số để có tổng bình phương 1. Vì vậy, chúng tôi thay thế(1,2,5,0,0,0)(tổng bình phương30) bằng(1

P= =1-ST
Một+2B+5C(1,2,5,0,0,0)30. Tiếp theo, chúng tôi "chấm điểm" từng quan sát theo các trọng số chuẩn hóa:(130,230,530,0,0,0)

ZTôi= =130MộtTôi+230BTôi+530CTôi

Sau đó, chúng tôi nhân số điểm với vectơ trọng số để có được dự đoán hạng 1 của chúng tôi.

(Một^TôiB^TôiC^TôiD^TôiE^TôiF^Tôi)= =ZTôi×(130230530000)

Sau đó, chúng tôi cắm những ước tính vào tính toán P . Bạn cũng có thể đặt điều này vào ký hiệu định mức ma trận, có thể gợi ý một khái quát khác nhau. Nếu chúng ta đặt O là ma trận N × q của các giá trị quan sát của các biến ( q = 6 trong trường hợp của bạn) và E là ma trận dự đoán tương ứng. Chúng ta có thể định nghĩa tỷ lệ phương sai được giải thích là:SPÔiN×qq=6E

||O||22||OE||22||O||22

Ở đâu định mức ma trận Frobenius . Vì vậy, bạn có thể "khái quát" đây là một loại định mức ma trận khác và bạn sẽ có được một thước đo khác biệt về "biến thể được giải thích", mặc dù nó sẽ không phải là "phương sai" mỗi lần trừ khi đó là tổng bình phương.||.||2


Đây là một cách tiếp cận hợp lý, nhưng biểu hiện của bạn có thể được đơn giản hóa rất nhiều và chứng minh là tương đương với tổng bình phương của chia cho tổng số ô vuông T . Ngoài ra, tôi nghĩ rằng đây không phải là cách tốt nhất để giải thích câu hỏi; xem câu trả lời của tôi cho một cách tiếp cận khác mà tôi tranh luận có ý nghĩa hơn (đặc biệt, xem hình mẫu của tôi ở đó). ZiT
amip nói phục hồi Monica

Hãy nghĩ về nó như thế. Hãy tưởng tượng một bộ dữ liệu với hai biến giống hệt chuẩn . Có bao nhiêu phương sai được mô tả bởi X ? Tính toán của bạn cho 50 % . Tôi cho rằng câu trả lời đúng là 100 % . X=YX50%100%
amip nói phục hồi Monica

@amoeba - nếu thì PC đầu tiên là ( 1X=Y- điều này làm chođiểm số1củazi=xi+yi(12,12)1 (giả sửxi=yi). Điều này cho phép cấp bậc1dự đoán của x i=xi, và tương tự y i=yi. Do đó, bạn nhận đượcO-E=0S=0. Do đó bạn nhận được 100% như trực giác của bạn cho thấy. zi=xi+yi2=xi2xi=yi1x^i=xiy^i=yiOE=0S=0
xác suất

Hey, vâng, chắc chắn, PC đầu tiên giải thích phương sai 100%, nhưng đó không phải là ý tôi. Ý tôi là , nhưng câu hỏi là có bao nhiêu phương sai được mô tả bởi X , tức là bởi ( 1 , 0 ) vectơ? Công thức của bạn nói gì sau đó? X=YX(1,0)
amip nói rằng Phục hồi lại

@amoeba - điều này nói 50%, nhưng lưu ý rằng vector nói rằng tốt nhất bậc 1 dự đoán cho ( x i , y i ) được cho là x i = x iy i = 0 (lưu ý mà z i = x i theo sự lựa chọn của bạn về vector). Đây không phải là một dự đoán tối ưu, đó là lý do tại sao bạn không nhận được 100%. Bạn cần dự đoán cả XY trong thiết lập này. (1,0)1(xi,yi)x^i=xiy^i=0zi=xiXY
xác suất

8

Giả sử tôi chọn một số kết hợp tuyến tính của các biến này - ví dụ , tôi có thể tìm ra bao nhiêu phương sai trong dữ liệu này mô tả không?A+2B+5C

Câu hỏi này có thể được hiểu theo hai cách khác nhau, dẫn đến hai câu trả lời khác nhau.

Một kết hợp tuyến tính tương ứng với một vectơ, trong ví dụ của bạn là . Lần lượt, vectơ này xác định một trục trong không gian 6D của các biến ban đầu. Những gì bạn đang hỏi là, chiếu bao nhiêu phương sai trên trục này "mô tả"? Câu trả lời được đưa ra thông qua khái niệm "tái cấu trúc" dữ liệu gốc từ phép chiếu này và đo lỗi tái cấu trúc (xem Wikipedia về Phân số phương sai không giải thích được ). Hóa ra, việc tái thiết này có thể được thực hiện một cách hợp lý theo hai cách khác nhau, mang lại hai câu trả lời khác nhau.[1,2,5,0,0,0]


Cách tiếp cận số 1

Hãy là tập dữ liệu làm trung tâm ( n hàng tương ứng với mẫu, d cột tương ứng với các biến), chúng ta hãy Σ được ma trận hiệp phương sai của nó, và để cho w là một vector đơn vị từ R d . Tổng phương sai của tập dữ liệu là tổng của tất cả các phương sai d , tức là dấu vết của ma trận hiệp phương sai: T = t r ( Σ ) . Câu hỏi đặt ra là: những gì tỷ lệ T làm w mô tả? Hai câu trả lời được đưa ra bởi @todddeluca và @probabilityislogic đều tương đương với các câu sau: tính toán phép chiếu X wXndΣwRddT=tr(Σ)TwXw, tính toán phương sai của nó và chia cho : R 2 f i r s t = V a r ( X w )T

RfTôirSt2= =Vmộtr(Xw)T= =wΣwtr(Σ).

Đây có thể không phải ngay lập tức rõ ràng, vì ví dụ @probabilityislogic gợi ý để xem xét việc tái thiết và sau đó để tính toán X 2 - X - X w w2Xwwnhưng với một chút đại số này có thể được chứng minh là một biểu thức tương đương.

X2-X-Xww2X2,

Cách tiếp cận số 2

Được chứ. Bây giờ hãy xem xét một ví dụ sau: là một d = 2 bộ dữ liệu với hiệp phương sai ma trận Σ = ( 1 0,99 0,99 1 )w = ( 1 0 ) chỉ đơn giản là một x vector:Xd= =2

Σ= =(10,990,991)
w= =(10)x

phương sai giải thích

Tổng phương sai là . Phương sai của hình chiếu lên w (hiển thị bằng các chấm màu đỏ) bằng 1 . Vì vậy, theo logic trên, giải thích sai bằng 1 / 2 . Và theo một nghĩa nào đó, đó là: các chấm đỏ ("tái tạo") nằm cách xa các chấm xanh tương ứng, do đó, rất nhiều phương sai bị "mất".T= =2w11/2

Mặt khác, hai biến có tương quan và do đó gần như giống hệt nhau; nói rằng một trong số chúng chỉ mô tả 50 % tổng phương sai là kỳ lạ, bởi vì mỗi trong số chúng chứa "gần như tất cả thông tin" về cái thứ hai. Chúng ta có thể chính thức hóa nó như sau: phép chiếu X w , tìm một phép tái tạo tốt nhất có thể X w v với v không nhất thiết giống như w , và sau đó tính toán lỗi tái tạo và cắm nó vào biểu thức cho tỷ lệ phương sai được giải thích: R 2 s e c o n0,9950%XwXwvvwnơivđược chọn sao choX-Xwv2là tối thiểu (tức làR2là tối đa). Điều này hoàn toàn tương đương với tính toánR2của hồi quy đa biến dự đoán bộ dữ liệu gốcXtừphép chiếu1chiềuXw.

RSecond2= =X2-X-Xwv2X2,
vX-Xwv2R2R2X1Xw

Đó là một vấn đề của đại số đơn giản để sử dụng giải pháp hồi quy cho để thấy rằng sự biểu hiện đơn giản hoá toàn bộ để R 2 s đ c o n d = Σ w 2vTrong ví dụ trên, giá trị này bằng0,9901, có vẻ hợp lý.

RSecond2= =Σw2wΣwtr(Σ).
0,9901

Lưu ý rằng nếu (và chỉ nếu) là một trong những vector riêng của Σ , tức là một trong những trục chính, với eigenvalue λ (để Σ w = λ w ), sau đó cả hai phương pháp tiếp cận để tính toán R 2 trùng và giảm đến quen thuộc Biểu thức PCA R 2 P C A = R 2 f i r s t = R 2 s e c o n d = λ / t r ( Σ ) =wΣλΣw= =λwR2

RPCMột2= =RfTôirSt2= =RSecond2= =λ/tr(Σ)= =λ/ΣλTôi.

w


RSecond2

vX-Xwv2XwX

v= =((Xw)(Xw))-1(Xw)X= =(wΣw)-1wΣ.

R2

R2= =X2-X-Xwv2X2= =Xwv2X2

v

Xwv2= =tr(Xwv(Xwv))= =tr(XwwΣΣwwX)/(wΣw)2= =tr(wΣΣw)/(wΣw)= =Σw2/(wΣw).

X2= =tr(Σ)


R2w(1,0)12(1,1)X= =Y

xyy-xbby-xn1/nlượng phương sai. Điều này không có nhiều thông tin: một số biến có thể dễ dự đoán hơn nhiều so với các biến khác! Cách tiếp cận của tôi phản ánh điều đó.
amip nói rằng Phục hồi lại

@amoeba (+1) Câu trả lời tuyệt vời, nó thực sự hữu ích! Bạn có biết bất kỳ tài liệu tham khảo nào giải quyết vấn đề này? Cảm ơn!
PierreE

@PierreE Cảm ơn. Không, tôi không nghĩ rằng tôi có bất kỳ tài liệu tham khảo cho điều đó.
amip nói phục hồi Monica

4

T

T= =ΣTôi(xTôi-x¯)(xTôi-x¯)
x¯xTôixTôif(xTôi)f(xTôi)= =x¯

xTôif(xTôi)xTôic

fc(xTôi)= =(cxTôi)c

SSEc

SSEc= =ΣTôi(xTôi-fc(xTôi))(xTôi-fc(xTôi))

cSSEcc

c(1,2,5,...)T-SSEcc


Đây là một cách tiếp cận hợp lý, nhưng tôi nghĩ đây không phải là cách tốt nhất để diễn giải câu hỏi; xem câu trả lời của tôi cho một cách tiếp cận khác mà tôi tranh luận có ý nghĩa hơn (đặc biệt, xem hình mẫu của tôi ở đó).
amip nói rằng Phục hồi Monica

Hãy nghĩ về nó như thế. Hãy tưởng tượng một bộ dữ liệu với hai biến giống hệt chuẩn X = Y . Có bao nhiêu phương sai được mô tả bởi X ? Tính toán của bạn cho 50 % . Tôi cho rằng câu trả lời đúng là 100 % . X= =YX50% -  amip nói phục hồi Monica 100%
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.