Giả sử tôi chọn một số kết hợp tuyến tính của các biến này - ví dụ , tôi có thể tìm ra bao nhiêu phương sai trong dữ liệu này mô tả không?A+2B+5C
Câu hỏi này có thể được hiểu theo hai cách khác nhau, dẫn đến hai câu trả lời khác nhau.
Một kết hợp tuyến tính tương ứng với một vectơ, trong ví dụ của bạn là . Lần lượt, vectơ này xác định một trục trong không gian 6D của các biến ban đầu. Những gì bạn đang hỏi là, chiếu bao nhiêu phương sai trên trục này "mô tả"? Câu trả lời được đưa ra thông qua khái niệm "tái cấu trúc" dữ liệu gốc từ phép chiếu này và đo lỗi tái cấu trúc (xem Wikipedia về Phân số phương sai không giải thích được ). Hóa ra, việc tái thiết này có thể được thực hiện một cách hợp lý theo hai cách khác nhau, mang lại hai câu trả lời khác nhau.[1,2,5,0,0,0]
Cách tiếp cận số 1
Hãy là tập dữ liệu làm trung tâm ( n hàng tương ứng với mẫu, d cột tương ứng với các biến), chúng ta hãy Σ được ma trận hiệp phương sai của nó, và để cho w là một vector đơn vị từ R d . Tổng phương sai của tập dữ liệu là tổng của tất cả các phương sai d , tức là dấu vết của ma trận hiệp phương sai: T = t r ( Σ ) . Câu hỏi đặt ra là: những gì tỷ lệ T làm w mô tả? Hai câu trả lời được đưa ra bởi @todddeluca và @probabilityislogic đều tương đương với các câu sau: tính toán phép chiếu X wXndΣwRddT=tr(Σ)TwX w, tính toán phương sai của nó và chia cho : R 2 f i r s t = V a r ( X w )T
R2fi r s t= V a r ( X w )T= w⊤Σ wt r (Σ).
Đây có thể không phải ngay lập tức rõ ràng, vì ví dụ @probabilityislogic gợi ý để xem xét việc tái thiết và sau đó để tính toán ‖ X ‖ 2 - ‖ X - X w w ⊤ ‖ 2X w w⊤nhưng với một chút đại số này có thể được chứng minh là một biểu thức tương đương.
∥ X ∥2- ∥ X - X w w⊤∥2∥ X ∥2,
Cách tiếp cận số 2
Được chứ. Bây giờ hãy xem xét một ví dụ sau: là một d = 2 bộ dữ liệu với hiệp phương sai ma trận Σ = ( 1 0,99 0,99 1 ) và w = ( 1 0 ) ⊤ chỉ đơn giản là một x vector:Xd= 2
Σ = ( 10,990,991)
w =( 10)⊤x
Tổng phương sai là . Phương sai của hình chiếu lên w (hiển thị bằng các chấm màu đỏ) bằng 1 . Vì vậy, theo logic trên, giải thích sai bằng 1 / 2 . Và theo một nghĩa nào đó, đó là: các chấm đỏ ("tái tạo") nằm cách xa các chấm xanh tương ứng, do đó, rất nhiều phương sai bị "mất".T= 2w11 / 2
Mặt khác, hai biến có tương quan và do đó gần như giống hệt nhau; nói rằng một trong số chúng chỉ mô tả 50 % tổng phương sai là kỳ lạ, bởi vì mỗi trong số chúng chứa "gần như tất cả thông tin" về cái thứ hai. Chúng ta có thể chính thức hóa nó như sau: phép chiếu X w , tìm một phép tái tạo tốt nhất có thể X w v ⊤ với v không nhất thiết giống như w , và sau đó tính toán lỗi tái tạo và cắm nó vào biểu thức cho tỷ lệ phương sai được giải thích: R 2 s e c o n0,9950 %X wX w v⊤vwnơivđược chọn sao cho‖X-Xwv⊤‖2là tối thiểu (tức làR2là tối đa). Điều này hoàn toàn tương đương với tính toánR2của hồi quy đa biến dự đoán bộ dữ liệu gốcXtừphép chiếu1chiềuXw.
R2s e c o n d= ∥ X ∥2- ∥ X - X w v⊤∥2∥ X ∥2,
v∥ X - X w v⊤∥2R2R2X1X w
Đó là một vấn đề của đại số đơn giản để sử dụng giải pháp hồi quy cho để thấy rằng sự biểu hiện đơn giản hoá toàn bộ để R 2 s đ c o n d = ‖ Σ w ‖ 2vTrong ví dụ trên, giá trị này bằng0,9901, có vẻ hợp lý.
R2s e c o n d= ∥ Σ w ∥2w⊤Σ w ⋅ t r ( Σ ).
0,9901
Lưu ý rằng nếu (và chỉ nếu) là một trong những vector riêng của Σ , tức là một trong những trục chính, với eigenvalue λ (để Σ w = λ w ), sau đó cả hai phương pháp tiếp cận để tính toán R 2 trùng và giảm đến quen thuộc Biểu thức PCA R 2 P C A = R 2 f i r s t = R 2 s e c o n d = λ / t r ( Σ ) =wΣλΣ w = λ wR2
R2P C A= R2fi r s t= R2s e c o n d= λ / t r ( Σ ) = λ / ∑ λTôi.
w
R2s e c o n d
v∥ X - X w v⊤∥2X wX
v⊤= ( ( X w )⊤( X w ) )- 1( X w )⊤X =( w⊤Σ w )- 1w⊤Σ .
R2
R2= ∥ X ∥2- ∥ X - X w v⊤∥2∥ X ∥2= ∥ X w v⊤∥2∥ X ∥2
v
∥ X w v⊤∥2= t r ( X w v⊤( X w v⊤)⊤) = t r ( X w w⊤Σ Σ w w⊤X⊤) / ( w⊤Σ w )2= t r ( w⊤Σ Σ w ) / ( w⊤Σ w ) = ∥ Σ w ∥2/ ( w⊤Σ w ) .
∥ X ∥2= t r ( Σ )