Làm thế nào để giải thích tải PCA?


13

Trong khi đọc về PCA, tôi đã xem qua lời giải thích sau:

Giả sử chúng ta có một bộ dữ liệu trong đó mỗi điểm dữ liệu đại diện cho điểm của một học sinh trong bài kiểm tra toán, bài kiểm tra vật lý, bài kiểm tra đọc hiểu và bài kiểm tra từ vựng.

Chúng tôi tìm thấy hai thành phần chính đầu tiên, chiếm 90% độ biến thiên của dữ liệu và diễn giải các tải của chúng. Chúng tôi kết luận rằng thành phần chính đầu tiên đại diện cho khả năng học tập tổng thể, và thành phần thứ hai thể hiện sự tương phản giữa khả năng định lượng và khả năng bằng lời nói.

Văn bản nói rằng tải PC1 và PC2 là cho PC1 và ( 0,5 , 0,5 , - 0,5 , - 0,5 ) cho PC2 và đưa ra lời giải thích sau:(0,5,0,5,0,5,0,5)(0,5,0,5,-0,5,-0,5)

Thành phần đầu tiên của anh ta tỷ lệ thuận với điểm trung bình và thành phần thứ hai đo lường sự khác biệt giữa cặp điểm số thứ nhất và cặp điểm số thứ hai.

Tôi không thể hiểu lời giải thích này có nghĩa là gì.


7
Bằng cách nào đó câu trả lời của @ ttnphns đi vào rất nhiều chi tiết toán học, nhưng tôi nghĩ rằng câu hỏi ban đầu thực sự đơn giản: tại sao vectơ tải cho PC1 là (0,5, 0,5, 0,5, 0,5) có nghĩa là thành phần đầu tiên "tỷ lệ thuận với điểm trung bình "? Vâng, câu trả lời là các hệ số tải [tỷ lệ với] các hệ số trong sự kết hợp tuyến tính của các biến ban đầu tạo nên PC1. Vì vậy, PC1 đầu tiên của bạn là tổng của cả bốn biến nhân 0,5 lần. Điều đó có nghĩa là nó tỷ lệ thuận với trung bình của bốn biến. Và tương tự với PC2. Tôi nghĩ rằng điều này trả lời câu hỏi ban đầu.
amip nói phục hồi Monica

@amoeba - Bạn có biết làm thế nào khó khăn để đi qua một lời giải thích đơn giản như vậy về tải. Bằng cách nào đó, ở khắp mọi nơi nó là một ngụm mật trong tất cả tôi trước khi tôi quyết định chuyển sang giải thích tiếp theo trên google. Cảm ơn bạn!
MiloMinderbinder

Câu trả lời:


13

Các tải ( không nên nhầm lẫn với các hàm riêng) có các thuộc tính sau:

  1. Tổng các hình vuông của chúng trong mỗi thành phần là giá trị riêng (phương sai của các thành phần).
  2. Tải là các hệ số trong tổ hợp tuyến tính dự đoán một biến bởi các thành phần (được tiêu chuẩn hóa).

Bạn đã trích xuất 2 PC đầu tiên trong số 4. Ma trận tải và giá trị riêng:Một

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

Trong trường hợp này, cả hai giá trị riêng đều bằng nhau. Đây là một trường hợp hiếm hoi trong thế giới thực, nó nói rằng PC1 và PC2 có "sức mạnh" giải thích ngang nhau.

Giả sử bạn cũng đã tính các giá trị thành phần, Nx2ma trận và bạn đã chuẩn hóa z (mean = 0, st. Dev. = 1) chúng trong mỗi cột. Sau đó (như điểm 2 nêu trên nói), X = C A ' . Nhưng, bởi vì bạn chỉ còn lại 2 máy tính ra khỏi 4 (bạn thiếu 2 cột hơn trong A ) các giá trị dữ liệu phục hồi XCX^= =CMột'MộtX^ là không chính xác, - có một lỗi (nếu giá trị riêng 3, 4 không phải là zero).

ĐỒNG Ý. Các hệ số để dự đoán các thành phần theo các biến là gì? Rõ ràng, nếu đầy , những thứ này sẽ là B = (Một4x4 . Với ma trận tải không vuông, chúng tôi có thể tính toán chúng như B = Một d i một g ( e i g đ n v một l u đ s ) - 1 = ( A + ) 'B= =(Một-1)'B= =MộtdTôimộtg(eTôigenvmộttôibạneS)-1= =(Một+)' , nơidiag(eigenvalues)là ma trận đường chéo vuông với các giá trị riêng trên đường chéo của nó và +siêu ký tự biểu thị giả ngẫu nhiên. Trong trường hợp của bạn:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

Vì vậy, nếu là ma trận của các biến trung tâm ban đầu (hoặc các biến được tiêu chuẩn hóa, nếu bạn đang thực hiện PCA dựa trên các mối tương quan chứ không phải hiệp phương sai), thì C = X B ; C là điểm thành phần chính được chuẩn hóa. Mà trong ví dụ của bạn là:XNx4C= =XBC

PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4

"thành phần đầu tiên tỷ lệ thuận với điểm trung bình"

PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)

"thành phần thứ hai đo lường sự khác biệt giữa cặp điểm số thứ nhất và cặp điểm số thứ hai"

Trong ví dụ này có vẻ như , nhưng trong trường hợp chung thì chúng khác nhau.B= =Một


Lưu ý : Công thức trên cho các hệ số để tính điểm thành phần, B= =MộtdTôimộtg(eTôigenvmộttôibạneS)-1B= =R-1MộtRlà ma trận hiệp phương sai (hoặc tương quan) của các biến. Công thức sau xuất phát trực tiếp từ lý thuyết hồi quy tuyến tính. Hai công thức chỉ tương đương trong bối cảnh PCA. Trong phân tích nhân tố, họ không và để tính điểm yếu tố (luôn luôn gần đúng trong FA) người ta nên dựa vào công thức thứ hai.


Câu trả lời liên quan của tôi:

Chi tiết hơn về tải trọng vs eigenvector .

Làm thế nào điểm thành phần chính và điểm yếu tố được tính toán .


2
Nếu 2 thành phần trong số 4 chiếm 90% độ biến thiên thì làm sao giá trị bản địa của chúng bằng 2?
Nick Cox

Nick, tôi tin rằng đây là một câu hỏi cho OP. Anh ta đã không đưa ra dữ liệu hoặc ma trận hiệp phương sai / tương quan. Tất cả những gì chúng tôi có từ anh ấy là một ma trận tải (khá phi thực tế) của 2 PC đầu tiên.
ttnphns

3
Điểm tốt, @Nick, điều này thực sự là không thể, như tổng phương sai của một ma trận tương quan phải 4 , vì vậy hai máy tính cả hai với giá trị riêng4×44150%90%
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.