PCA và tỷ lệ phương sai được giải thích


90

Nói chung, có nghĩa là gì khi nói rằng phần của phương sai trong phân tích như PCA được giải thích bởi thành phần chính đầu tiên? Ai đó có thể giải thích điều này bằng trực giác nhưng cũng có thể đưa ra một định nghĩa toán học chính xác về "phương sai giải thích" nghĩa là gì trong phân tích thành phần chính (PCA) không?x

Đối với hồi quy tuyến tính đơn giản, r-bình phương của dòng phù hợp nhất luôn được mô tả là tỷ lệ của phương sai được giải thích, nhưng tôi cũng không chắc chắn nên làm gì với điều đó. Là tỷ lệ phương sai ở đây chỉ là sự mở rộng độ lệch của các điểm so với đường phù hợp nhất?


Câu trả lời:


103

Trong trường hợp của PCA, "sai" có nghĩa là sai tổng kết hoặc biến đổi đa biến hoặc biến đổi tổng thể hoặc tổng biến . Dưới đây là ma trận hiệp phương sai của một số 3 biến. Phương sai của chúng nằm trên đường chéo và tổng của 3 giá trị (3.448) là biến thiên tổng thể.

   1.343730519   -.160152268    .186470243 
   -.160152268    .619205620   -.126684273 
    .186470243   -.126684273   1.485549631

Bây giờ, PCA thay thế các biến ban đầu bằng các biến mới, được gọi là các thành phần chính, là trực giao (tức là chúng có các biến số bằng 0) và có các phương sai (được gọi là giá trị riêng) theo thứ tự giảm dần. Vì vậy, ma trận hiệp phương sai giữa các thành phần chính được trích xuất từ ​​dữ liệu trên là:

   1.651354285    .000000000    .000000000 
    .000000000   1.220288343    .000000000 
    .000000000    .000000000    .576843142

Lưu ý rằng tổng đường chéo vẫn là 3,448, điều này nói rằng cả 3 thành phần chiếm tất cả các biến thiên đa biến. Thành phần chính thứ 1 chiếm hoặc "giải thích" 1,651 / 3,448 = 47,9% độ biến thiên tổng thể; cái thứ 2 giải thích 1.220 / 3.448 = 35.4% của nó; cái thứ 3 giải thích .577 / 3.448 = 16.7% của nó.

Vậy, ý của họ là gì khi họ nói rằng " PCA tối đa hóa phương sai " hay " PCA giải thích phương sai tối đa "? Tất nhiên, điều đó không phải là nó tìm thấy phương sai lớn nhất trong số ba giá trị 1.343730519 .619205620 1.485549631, không. PCA tìm thấy, trong không gian dữ liệu, chiều (hướng) với phương sai lớn nhất ra khỏi tổng thể sai 1.343730519+.619205620+1.485549631 = 3.448. Phương sai lớn nhất sẽ là 1.651354285. Sau đó, nó tìm thấy kích thước của phương sai lớn thứ hai, trực giao với phương sai thứ nhất, trong số 3.448-1.651354285phương sai tổng thể còn lại . Đó là chiều thứ 2 sẽ là 1.220288343phương sai. Và như vậy. Kích thước cuối cùng còn lại là .576843142phương sai. Xem thêm "Pt3" tại đâycâu trả lời tuyệt vời tại đây giải thích làm thế nào nó được thực hiện chi tiết hơn.

Về mặt toán học, PCA được thực hiện thông qua các hàm đại số tuyến tính được gọi là phân rã eigen hoặc phân rã svd. Các hàm này sẽ trả về cho bạn tất cả các giá trị riêng 1.651354285 1.220288343 .576843142(và các hàm riêng tương ứng) cùng một lúc ( xem , xem ).


1
Bạn có ý nghĩa gì với: "Lưu ý rằng tổng đường chéo vẫn là 3,448, có nghĩa là tất cả 3 thành phần chiếm tất cả các biến thiên đa biến" và sự khác biệt giữa phương pháp của bạn và PoV (Tỷ lệ biến thể) là gì?
kamaci

2
Tôi không đề xuất bất kỳ "phương pháp" nào. Tôi chỉ giải thích rằng tất cả các PC chiếm tổng số lượng biến thiên như các biến ban đầu.
ttnphns

Bạn có thể kiểm tra câu hỏi của tôi không: stats.stackexchange.com/questions/44464/ Khăn
kamaci

Tôi xin lỗi :-( Hiện tại tôi không thể. Có quá nhiều bình luận để điều chỉnh.
ttnphns

1
nếu bạn chỉ đọc câu hỏi là đủ. Không có gì ở ý kiến.
kamaci

11

@ttnphns đã cung cấp một câu trả lời tốt, có lẽ tôi có thể thêm một vài điểm. Đầu tiên, tôi muốn chỉ ra rằng có một câu hỏi có liên quan trên CV, với một câu trả lời thực sự mạnh mẽ, bạn chắc chắn muốn kiểm tra nó. Trong phần tiếp theo, tôi sẽ đề cập đến các ô được hiển thị trong câu trả lời đó.

Tất cả ba lô hiển thị cùng một dữ liệu. Lưu ý rằng có sự thay đổi trong dữ liệu theo cả chiều dọc và chiều ngang, nhưng chúng ta có thể nghĩ về hầu hết các biến đổi là thực sự là đường chéo . Trong biểu đồ thứ ba, đường chéo màu đen dài đó là hàm riêng đầu tiên (hoặc thành phần nguyên tắc đầu tiên) và độ dài của thành phần nguyên tắc đó (sự lan truyền của dữ liệu dọc theo dòng đó - không thực sự là độ dài của chính dòng chỉ được vẽ trên cốt truyện) là giá trị riêng đầu tiên- đó là lượng phương sai chiếm bởi thành phần nguyên tắc đầu tiên. Nếu bạn tính tổng chiều dài đó với chiều dài của thành phần nguyên tắc thứ hai (là độ rộng của sự lan truyền dữ liệu trực tiếp từ đường chéo đó), và sau đó chia một trong hai giá trị riêng cho tổng số đó, bạn sẽ nhận được phần trăm của phương sai chiếm bởi thành phần nguyên tắc tương ứng.

Mặt khác, để hiểu phần trăm của phương sai chiếm trong hồi quy, bạn có thể nhìn vào cốt truyện hàng đầu. Trong trường hợp đó, đường màu đỏ là đường hồi quy hoặc tập hợp các giá trị dự đoán từ mô hình. Phương sai được giải thích có thể được hiểu là tỷ lệ của chênh lệch dọc của đường hồi quy (nghĩa là từ điểm thấp nhất trên đường đến điểm cao nhất trên đường) với mức chênh lệch dọc của dữ liệu (nghĩa là từ điểm dữ liệu thấp nhất đến điểm dữ liệu cao nhất). Tất nhiên, đó chỉ là một ý tưởng lỏng lẻo, bởi vì theo nghĩa đen, đó là những phạm vi, không phải là phương sai, nhưng điều đó sẽ giúp bạn có được điểm.

Hãy chắc chắn để đọc câu hỏi. Và, mặc dù tôi đã đề cập đến câu trả lời hàng đầu, một số câu trả lời được đưa ra là tuyệt vời. Đó là giá trị thời gian của bạn để đọc tất cả.


3

Có một câu trả lời toán học rất đơn giản, trực tiếp và chính xác cho câu hỏi ban đầu.

PC đầu tiên là sự kết hợp tuyến tính của các biến ban đầu , , , nhằm tối đa hóa tổng số thống kê khi dự đoán các biến ban đầu là hàm hồi quy của tổ hợp tuyến tính.Y 2 ... Y p R 2 iY1Y2YpRi2

Chính xác, các hệ số , , , trong PC đầu tiên, , cung cấp cho bạn các giá trị lớn nhất của , trong đó mức tối đa được thực hiện trên tất cả các kết hợp tuyến tính có thể.một 2 ... một p P C 1 = một 1 Y 1 + một 2 Y 2 + + một p Y p Σ p i = 1 R 2 i ( Y i | P C 1 )a1a2apPC1=a1Y1+a2Y2++apYpi=1pRi2(Yi|PC1)

Theo nghĩa này, bạn có thể hiểu PC đầu tiên là một công cụ tối đa hóa "phương sai được giải thích", hay chính xác hơn là một công cụ tối đa hóa "tổng phương sai được giải thích".

Đó là "tối đa hóa" chứ không phải "tối đa hóa", bởi vì bất kỳ hệ số tỷ lệ nào , đối với , sẽ cho cùng một mức tối đa. Một sản phẩm phụ tuyệt vời của kết quả này là hạn chế độ dài đơn vị là không cần thiết, ngoài việc là một thiết bị để đưa ra tối đa hóa "a". c 0bi=c×aic0

Để tham khảo tài liệu gốc và phần mở rộng, xem

Westfall, PH, Arias, AL và Fulton, LV (2017). Dạy các thành phần chính bằng cách sử dụng các mối tương quan, nghiên cứu hành vi đa biến, 52, 648-660.


0

Hãy suy nghĩ về là biến ngẫu nhiên được giải thích bởi hai biến ngẫu nhiên mới và . tại sao chúng ta làm điều này? Có thể phức tạp nhưng và ít phức tạp hơn. Nhưng dù sao, một phần của phương sai của được giải thích bởi những người và . . Áp dụng điều này cho hồi quy tuyến tính là đơn giản. Hãy nghĩ rằng là và là , sau đó . Một phần của phương sai trongY=A+BYABYABYABvar(Y)=var(A)+var(B)+2cov(A,B)Ab0+b1XBeY b 0 + b 1 XY=b0+b1X+eYđược giải thích bằng đường hồi quy, .b0+b1X

Chúng tôi sử dụng "tỷ lệ sai" hạn vì chúng tôi muốn xác định số lượng bao nhiêu đường hồi quy là hữu ích để dự đoán (hoặc mô hình) .Y


Bạn nên kiểm tra công thức của bạn về phương sai của Y: nó không đúng. Tuy nhiên, quan trọng hơn, nỗ lực giải thích hồi quy không mô tả chính xác PCA cũng như cách mọi người nghĩ về nó và sử dụng nó.
whuber

1
Ty, lỗi cố định trong công thức. Câu trả lời của tôi là phần thứ hai của câu hỏi liên quan đến tỷ lệ phương sai được giải thích bằng đường hồi quy.
Trẻ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.