Cảnh báo: R
sử dụng thuật ngữ "tải" một cách khó hiểu. Tôi giải thích nó dưới đây.
Xem xét tập dữ liệu với các biến (chính giữa) trong các cột và điểm dữ liệu trong các hàng. Việc thực hiện PCA của bộ dữ liệu này tương đương với phân tách giá trị số ít . Các cột của là các thành phần chính (PC "điểm") và các cột của là các trục chính. Ma trận hiệp phương sai được đưa ra bởi , vì vậy các trục chính là các hàm riêng của ma trận hiệp phương sai.XNX = U S V.⊤U SV1N- 1X⊤X = V S2N- 1V⊤V
"Tải" được định nghĩa là các cột của , tức là chúng là các hàm riêng được chia tỷ lệ theo căn bậc hai của các giá trị riêng tương ứng. Họ khác với người bản địa! Xem câu trả lời của tôi ở đây để có động lực.L = V SN- 1√
Sử dụng chủ nghĩa hình thức này, chúng ta có thể tính toán ma trận hiệp phương sai giữa các biến ban đầu và PC được tiêu chuẩn hóa: tức là nó được đưa ra bởi các tải. Ma trận tương quan chéo giữa các biến ban đầu và PC được đưa ra bởi cùng một biểu thức chia cho độ lệch chuẩn của các biến ban đầu (theo định nghĩa về tương quan). Nếu các biến ban đầu được chuẩn hóa trước khi thực hiện PCA (tức là PCA được thực hiện trên ma trận tương quan) thì tất cả đều bằng . Trong trường hợp cuối cùng này, ma trận tương quan chéo một lần nữa được đưa ra đơn giản bởi .
1N- 1X⊤( N- 1-----√U )= 1N- 1-----√V S U⊤U = 1N- 1-----√V S = L ,
1L
Để làm rõ sự nhầm lẫn về thuật ngữ: cái mà gói R gọi là "tải" là trục chính và cái mà nó gọi là "tải tương quan" là (đối với PCA được thực hiện trên ma trận tương quan) trong thực tế tải. Như bạn nhận thấy, chúng chỉ khác nhau về tỷ lệ. Những gì tốt hơn để cốt truyện, phụ thuộc vào những gì bạn muốn xem. Hãy xem xét một ví dụ đơn giản sau:
Subplot bên trái hiển thị một tập dữ liệu 2D được tiêu chuẩn hóa (mỗi biến có phương sai đơn vị), được kéo dài dọc theo đường chéo chính. Subplot giữa là một biplot : nó là một biểu đồ phân tán của PC1 so với PC2 (trong trường hợp này chỉ đơn giản là tập dữ liệu được xoay 45 độ) với các hàng vẽ trên đầu dưới dạng vectơ. Lưu ý rằng các vectơ và cách nhau 90 độ; họ cho bạn biết làm thế nào các trục ban đầu được định hướng. Subplot bên phải là cùng một biplot, nhưng bây giờ các vectơ hiển thị các hàng của . Lưu ý rằng bây giờ các vectơ và có một góc nhọn giữa chúng; chúng cho bạn biết có bao nhiêu biến ban đầu tương quan với PC và cả và x y L x y x y x yVxyLxyxytương quan mạnh hơn nhiều với PC1 so với PC2. Tôi đoán rằng hầu hết mọi người thường thích nhìn thấy loại biplot phù hợp.
Lưu ý rằng trong cả hai trường hợp, cả vectơ và đều có độ dài đơn vị. Điều này xảy ra chỉ vì bộ dữ liệu là 2D để bắt đầu; trong trường hợp khi có nhiều biến hơn, các vectơ riêng lẻ có thể có độ dài nhỏ hơn , nhưng chúng không bao giờ có thể vươn ra ngoài vòng tròn đơn vị. Bằng chứng về thực tế này tôi rời đi như một bài tập.y 1xy1
Bây giờ chúng ta hãy xem xét lại bộ dữ liệu mtcars . Đây là một biplot của PCA được thực hiện trên ma trận tương quan:
Các dòng màu đen được vẽ bằng cách sử dụng , các dòng màu đỏ được vẽ bằng cách sử dụng .LVL
Và đây là một nhóm của PCA được thực hiện trên ma trận hiệp phương sai:
Ở đây tôi đã thu nhỏ tất cả các vectơ và vòng tròn đơn vị bằng , vì nếu không nó sẽ không hiển thị (đó là một thủ thuật thường được sử dụng). Một lần nữa, các dòng màu đen hiển thị các hàng và các dòng màu đỏ hiển thị mối tương quan giữa các biến và PC (không được đưa ra bởi nữa, xem ở trên). Lưu ý rằng chỉ có hai dòng màu đen được nhìn thấy; điều này là do hai biến có phương sai rất cao và thống trị tập dữ liệu mtcars . Mặt khác, tất cả các dòng màu đỏ có thể được nhìn thấy. Cả hai đại diện truyền đạt một số thông tin hữu ích.V L100VL
PS Có nhiều biến thể khác nhau của biplots PCA, hãy xem câu trả lời của tôi ở đây để biết thêm một số giải thích và tổng quan: Định vị các mũi tên trên biplot PCA . Biplot đẹp nhất từng được đăng trên CrossValidated có thể được tìm thấy ở đây .