Sự khác biệt giữa các tải trọng của mối quan hệ giữa các ứng dụng và các mối quan hệ giữa các vùng khác nhau trong PCA và PLS là gì?


11

Một điều phổ biến cần làm khi thực hiện Phân tích thành phần chính (PCA) là vẽ hai tải trọng với nhau để điều tra mối quan hệ giữa các biến. Trong bài báo kèm theo gói PLS R để thực hiện hồi quy thành phần chính và hồi quy PLS có một âm mưu khác, được gọi là biểu đồ tải tương quan (xem hình 7 và trang 15 trong bài viết). Các tải tương quan , vì nó được giải thích, là mối tương quan giữa các điểm (từ PCA hoặc PLS) và các dữ liệu quan sát thực tế.

Dường như với tôi rằng tải và tương quan tải khá giống nhau, ngoại trừ việc chúng được thu nhỏ một chút khác nhau. Một ví dụ có thể lặp lại trong R, với mtcars được thiết lập trong dữ liệu như sau:

data(mtcars)
pca <- prcomp(mtcars, center=TRUE, scale=TRUE)

#loading plot
plot(pca$rotation[,1], pca$rotation[,2],
     xlim=c(-1,1), ylim=c(-1,1),
     main='Loadings for PC1 vs. PC2')

#correlation loading plot
correlationloadings <- cor(mtcars, pca$x)
plot(correlationloadings[,1], correlationloadings[,2],
     xlim=c(-1,1), ylim=c(-1,1),
     main='Correlation Loadings for PC1 vs. PC2')

loadplot tải tương quan

Sự khác biệt trong việc giải thích các lô này là gì? Và cốt truyện nào (nếu có) là tốt nhất để sử dụng trong thực tế?


Để có cái nhìn rõ hơn về pca, hãy sử dụng biplot (pca), nó cho bạn thấy tải và điểm của pca và do đó bạn có thể diễn giải nó tốt hơn.
Paul

6
R prcompgói liều lĩnh gọi eigenvector "tải". Tôi khuyên nên giữ các điều khoản riêng biệt. Tải trọng là các hàm riêng được nhân rộng theo giá trị riêng tương ứng.
ttnphns

1
Giải thích hình học của một âm mưu tải: stats.stackexchange.com/a/119758/3277
ttnphns

Câu trả lời:


13

Cảnh báo: Rsử dụng thuật ngữ "tải" một cách khó hiểu. Tôi giải thích nó dưới đây.

Xem xét tập dữ liệu với các biến (chính giữa) trong các cột và điểm dữ liệu trong các hàng. Việc thực hiện PCA của bộ dữ liệu này tương đương với phân tách giá trị số ít . Các cột của là các thành phần chính (PC "điểm") và các cột của là các trục chính. Ma trận hiệp phương sai được đưa ra bởi , vì vậy các trục chính là các hàm riêng của ma trận hiệp phương sai.XNX=USVUSV1N1XX=VS2N1VV

"Tải" được định nghĩa là các cột của , tức là chúng là các hàm riêng được chia tỷ lệ theo căn bậc hai của các giá trị riêng tương ứng. Họ khác với người bản địa! Xem câu trả lời của tôi ở đây để có động lực.L=VSN1

Sử dụng chủ nghĩa hình thức này, chúng ta có thể tính toán ma trận hiệp phương sai giữa các biến ban đầu và PC được tiêu chuẩn hóa: tức là nó được đưa ra bởi các tải. Ma trận tương quan chéo giữa các biến ban đầu và PC được đưa ra bởi cùng một biểu thức chia cho độ lệch chuẩn của các biến ban đầu (theo định nghĩa về tương quan). Nếu các biến ban đầu được chuẩn hóa trước khi thực hiện PCA (tức là PCA được thực hiện trên ma trận tương quan) thì tất cả đều bằng . Trong trường hợp cuối cùng này, ma trận tương quan chéo một lần nữa được đưa ra đơn giản bởi .

1N1X(N1U)=1N1VSUU=1N1VS=L,
1L

Để làm rõ sự nhầm lẫn về thuật ngữ: cái mà gói R gọi là "tải" là trục chính và cái mà nó gọi là "tải tương quan" là (đối với PCA được thực hiện trên ma trận tương quan) trong thực tế tải. Như bạn nhận thấy, chúng chỉ khác nhau về tỷ lệ. Những gì tốt hơn để cốt truyện, phụ thuộc vào những gì bạn muốn xem. Hãy xem xét một ví dụ đơn giản sau:

Biplots

Subplot bên trái hiển thị một tập dữ liệu 2D được tiêu chuẩn hóa (mỗi biến có phương sai đơn vị), được kéo dài dọc theo đường chéo chính. Subplot giữa là một biplot : nó là một biểu đồ phân tán của PC1 so với PC2 (trong trường hợp này chỉ đơn giản là tập dữ liệu được xoay 45 độ) với các hàng vẽ trên đầu dưới dạng vectơ. Lưu ý rằng các vectơ và cách nhau 90 độ; họ cho bạn biết làm thế nào các trục ban đầu được định hướng. Subplot bên phải là cùng một biplot, nhưng bây giờ các vectơ hiển thị các hàng của . Lưu ý rằng bây giờ các vectơ và có một góc nhọn giữa chúng; chúng cho bạn biết có bao nhiêu biến ban đầu tương quan với PC và cả và x y L x y x y x yVxyLxyxytương quan mạnh hơn nhiều với PC1 so với PC2. Tôi đoán rằng hầu hết mọi người thường thích nhìn thấy loại biplot phù hợp.

Lưu ý rằng trong cả hai trường hợp, cả vectơ và đều có độ dài đơn vị. Điều này xảy ra chỉ vì bộ dữ liệu là 2D để bắt đầu; trong trường hợp khi có nhiều biến hơn, các vectơ riêng lẻ có thể có độ dài nhỏ hơn , nhưng chúng không bao giờ có thể vươn ra ngoài vòng tròn đơn vị. Bằng chứng về thực tế này tôi rời đi như một bài tập.y 1xy1

Bây giờ chúng ta hãy xem xét lại bộ dữ liệu mtcars . Đây là một biplot của PCA được thực hiện trên ma trận tương quan:

mtcars pca biplot

Các dòng màu đen được vẽ bằng cách sử dụng , các dòng màu đỏ được vẽ bằng cách sử dụng .LVL

Và đây là một nhóm của PCA được thực hiện trên ma trận hiệp phương sai:

mtcars pca biplot

Ở đây tôi đã thu nhỏ tất cả các vectơ và vòng tròn đơn vị bằng , vì nếu không nó sẽ không hiển thị (đó là một thủ thuật thường được sử dụng). Một lần nữa, các dòng màu đen hiển thị các hàng và các dòng màu đỏ hiển thị mối tương quan giữa các biến và PC (không được đưa ra bởi nữa, xem ở trên). Lưu ý rằng chỉ có hai dòng màu đen được nhìn thấy; điều này là do hai biến có phương sai rất cao và thống trị tập dữ liệu mtcars . Mặt khác, tất cả các dòng màu đỏ có thể được nhìn thấy. Cả hai đại diện truyền đạt một số thông tin hữu ích.V L100VL

PS Có nhiều biến thể khác nhau của biplots PCA, hãy xem câu trả lời của tôi ở đây để biết thêm một số giải thích và tổng quan: Định vị các mũi tên trên biplot PCA . Biplot đẹp nhất từng được đăng trên CrossValidated có thể được tìm thấy ở đây .


2
Mặc dù đây là một câu trả lời rất hay (+1), nhưng nó chỉ có một điểm yếu không thực tế, ở chỗ ban đầu nó đặt các biến trong các hàng của X, chứ không phải trong các cột của X như truyền thống trong các bộ dữ liệu / ví dụ thống kê. Do đó, các vectơ U trở thành câu trả lời cho các biến và V về các trường hợp. Hầu hết mọi người biết PCA đều quen với bố cục ngược lại; vì vậy nó cản trở nhận thức, một chút.
ttnphns

1
Tôi có thể đề nghị nhấn mạnh bằng lời nói "đạo đức" của sự khác biệt giữa "biplot axes" và "biplot tải" khi quét. Trong trường hợp đầu tiên, tính biến thiên (= scale, = magnidute, = quán tính, = khối lượng) không được trình bày: nó được lưu trữ trong các giá trị riêng. Trong lần thứ hai, nó đã được cung cấp đầy đủ cho các hàm riêng đại diện cho các biến; nhờ vào việc "hồi sinh", các biến trở thành đám mây dữ liệu có ý nghĩa gồm hai điểm, hoặc vectơ, với chiều dài cụ thể từ gốc và góc cụ thể. Đây là cách chúng tôi "đột nhiên" thấy mình trong không gian chủ đề .
ttnphns

XxUUxXUXXXU

1
Tất nhiên đây là vấn đề của hương vị. Tuy nhiên, lưu ý rằng phần lớn các chương trình thống kê hiển thị bảng tính dữ liệu như cases X variables. Theo truyền thống sau đó, đại số tuyến tính trong hầu hết các văn bản phân tích thống kê làm cho trường hợp trở thành một vectơ hàng. Có lẽ trong học máy nó là khác nhau?
ttnphns

1
@user_anon Không, câu trả lời này xem xét PCA tiêu chuẩn, không có bất kỳ yếu tố xoay vòng nào.
amip nói rằng Phục hồi lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.