Loadings vs eigenvector trong PCA: khi nào nên sử dụng cái này hay cái khác?


67

Trong phân tích thành phần chính (PCA), chúng ta có các hàm riêng (vectơ đơn vị) và giá trị riêng. Bây giờ, chúng ta hãy định nghĩa các tải là

Loadings=EigenvectorsEigenvalues.

Tôi biết rằng các hàm riêng chỉ là các hướng và tải (như được định nghĩa ở trên) cũng bao gồm phương sai dọc theo các hướng này. Nhưng để hiểu rõ hơn, tôi muốn biết nơi nào tôi nên sử dụng tải thay vì người bản địa? Một ví dụ sẽ là hoàn hảo!

Tôi thường chỉ thấy những người sử dụng trình phát điện tử nhưng thỉnh thoảng họ sử dụng tải (như được định nghĩa ở trên) và sau đó tôi cảm thấy rằng tôi không thực sự hiểu sự khác biệt.

Câu trả lời:


66

Trong PCA, bạn chia ma trận hiệp phương sai (hoặc tương quan) thành phần tỷ lệ (giá trị riêng) và phần hướng (hàm riêng). Sau đó, bạn có thể ban cho người bản địa với tỷ lệ: tải . Vì vậy, các tải trọng do đó trở nên có thể so sánh theo độ lớn với các hiệp phương sai / tương quan được quan sát giữa các biến, - bởi vì những gì đã được rút ra từ sự cộng hưởng của các biến trở lại - dưới dạng cộng hưởng giữa các biến và các thành phần chính. Trên thực tế, tải các hiệp phương sai / tương quan giữa các biến ban đầu và các thành phần tỷ lệ đơn vị . Câu trả lời này cho thấy về mặt hình học các tải trọng là gì và các hệ số liên kết các thành phần với các biến trong PCA hoặc phân tích nhân tố.

Tải trọng :

  1. Giúp bạn giải thích các thành phần chính hoặc các yếu tố; Bởi vì chúng là các trọng số kết hợp tuyến tính (hệ số) theo đó các thành phần hoặc các yếu tố được chia tỷ lệ đơn vị xác định hoặc "tải" một biến .

    (Eigenvector chỉ là một hệ số của phép biến đổi hoặc phép chiếu trực giao , nó không có "tải" trong giá trị của nó. "Tải" là (thông tin về số lượng) phương sai, độ lớn. PC được trích xuất để giải thích phương sai của các biến. phương sai của (= được giải thích bởi) PC. Khi chúng tôi nhân eigenvector với sq.root của eivenvalue, chúng tôi "tải" hệ số trần bằng số lượng phương sai. Nhờ đó, chúng tôi làm cho hệ số trở thành thước đo liên kết , đồng tính biến đổi.)

  2. Tải đôi khi được "xoay" (ví dụ varimax) sau đó để tạo thuận lợi cho khả năng diễn giải ( xem thêm );

  3. Đó là các tải trọng "khôi phục" ma trận hiệp phương sai / tương quan ban đầu (xem thêm chủ đề này thảo luận về các sắc thái của PCA và FA về khía cạnh đó);

  4. Mặc dù trong PCA, bạn có thể tính toán các giá trị của các thành phần cả từ hàm riêng và tải, trong phân tích nhân tố, bạn tính điểm yếu tố ra khỏi tải .

  5. Và, trên tất cả, ma trận tải là thông tin: các tổng bình phương thẳng đứng của nó là giá trị riêng, phương sai của các thành phần và tổng bình phương ngang của nó là các phần của phương sai của các biến được "giải thích" bởi các thành phần.

  6. Tải lại được chuẩn hóa hoặc chuẩn hóa là tải được chia cho st của biến. sai lệch; nó là sự tương quan (Nếu PCA của bạn là PCA dựa trên tương quan, thì tải bằng với PCA được định cỡ lại, vì PCA dựa trên tương quan là PCA trên các biến được tiêu chuẩn hóa.) Bình phương tải lại có nghĩa là sự đóng góp của pr. thành phần thành một biến; nếu nó ở mức cao (gần 1) thì biến đó chỉ được xác định rõ bởi thành phần đó.

Một ví dụ về tính toán được thực hiện trong PCA và FA để bạn xem .

Eigenvector là tải trọng đơn vị; và chúng là các hệ số (cosin) của phép biến đổi trực giao (phép quay) của các biến thành các thành phần chính hoặc ngược lại. Do đó, thật dễ dàng để tính toán các giá trị của các thành phần (không được tiêu chuẩn hóa) với chúng. Bên cạnh đó việc sử dụng của họ là hạn chế. Bình phương giá trị Eigenvector có ý nghĩa đóng góp của một biến vào một pr. thành phần; nếu nó ở mức cao (gần 1) thì thành phần được xác định rõ bởi biến đó.

Mặc dù các hàm riêngtải chỉ đơn giản là hai cách khác nhau để chuẩn hóa tọa độ của cùng một điểm đại diện cho các cột (biến) của dữ liệu trên một biplot , nhưng không nên trộn lẫn hai thuật ngữ. Câu trả lời này giải thích tại sao. Xem thêm .


3
Có thể tồn tại các quy ước khác nhau trong các lĩnh vực khác nhau ở đây? Tôi vấp phải câu hỏi này, bởi vì trong lĩnh vực của tôi (hóa học), cách thông thường là có tải trọng trực giao. Nói cách khác, thang đo / cường độ / đi vào điểm số, không đi vào tải. Tải bằng với nghịch đảo = chuyển vị của ma trận eigenvector. Tôi đã kiểm tra kỹ điều này với cả "Sổ tay Hóa học và Định lượng" và "Hóa học toàn diện" mà tôi xem là 2 tài liệu tham khảo quan trọng nhất cho hóa học. eigenvalues
cbeleites

1
Lưu ý bên lề: Trong hóa học, việc tính điểm từ dữ liệu gốc có tầm quan trọng rất lớn, vì rất nhiều mô hình dự đoán sử dụng xoay PCA (!) Để xử lý trước, vì vậy việc sử dụng tải hạn chế là IMHO sử dụng chính cho PCA.
cbeleites

2
@cbeleites, không chỉ có thể các quy ước thuật ngữ PCA / FA có thể khác nhau trong các lĩnh vực khác nhau (hoặc trong các phần mềm hoặc sách khác nhau) - Tôi nói rằng chúng khác nhau. Trong tâm lý học và hành vi của con người, "tải trọng" thường là những gì tôi đặt tên theo tên (tải trọng rất quan trọng trong các lĩnh vực đó vì việc giải thích các độ trễ đang chờ xử lý, trong khi điểm số có thể được thu nhỏ lại, tiêu chuẩn hóa và không ai quan tâm). Mặt khác, nhiều Rngười dùng trên trang web này đã gọi các "trình tải" của PCA có thể đến từ tài liệu chức năng.
ttnphns

(tt) Điều tồi tệ nhất là từ "tải" đang được sử dụng trong các kỹ thuật khác (LDA, tương quan chính tắc, v.v.) không chính xác theo cùng nghĩa như trong PCA. Vì vậy, từ này bị xâm phạm. Tôi đồng ý với @amoeba, người cho rằng nó sẽ bị loại bỏ hoàn toàn và được thay thế bằng các thuật ngữ chính xác về mặt thống kê như "tương quan" hoặc "hệ số". Mặt khác, "eigenvector" dường như bị giới hạn trong phân tách svd / eigen và một số phương thức mờ. giảm không thực hiện những người ở tất cả hoặc ở dạng cổ điển của họ.
ttnphns

1
Bạn phải trộn lên. Khi bạn tính toán chính xác điểm số PC với sự trợ giúp của tải, bạn sẽ kết thúc với các thành phần được tiêu chuẩn hóa đơn giản. Bạn không tính các điểm số này theo cùng một công thức như bạn làm với người bản địa; thay vào đó, bạn nên sử dụng các công thức được mô tả trong liên kết số 4 của tôi.
ttnphns

3

Dường như có rất nhiều nhầm lẫn về tải, hệ số và hàm riêng. Các tải từ xuất phát từ Phân tích nhân tố và nó đề cập đến các hệ số hồi quy của ma trận dữ liệu lên các yếu tố. Chúng không phải là hệ số xác định các yếu tố. Xem ví dụ Mardia, Bibby và Kent hoặc sách giáo khoa thống kê đa biến khác.

Trong những năm gần đây, tải từ đã được sử dụng để chỉ ra các hệ số PC. Ở đây, dường như nó được sử dụng để chỉ ra các hệ số nhân với sqrt của các giá trị riêng của ma trận. Đây không phải là số lượng thường được sử dụng trong PCA. Các thành phần chính được định nghĩa là tổng của các biến có trọng số với các hệ số định mức đơn vị. Theo cách này, các PC có định mức bằng với giá trị riêng tương ứng, lần lượt bằng với phương sai được giải thích bởi thành phần.

Trong Phân tích nhân tố, các yếu tố bắt buộc phải có định mức đơn vị. Nhưng FA và PCA hoàn toàn khác nhau. Xoay hệ số của PC rất hiếm khi được thực hiện vì nó phá hủy sự tối ưu của các thành phần.

Trong FA, các yếu tố không được xác định duy nhất và có thể được ước tính theo các cách khác nhau. Các đại lượng quan trọng là tải trọng (những cái thực) và các cộng đồng được sử dụng để nghiên cứu cấu trúc của ma trận hiệp phương sai. PCA hoặc PLS nên được sử dụng để ước tính các thành phần.


2
Câu trả lời này, chính xác ở các khía cạnh cụ thể (+1), bỏ qua rằng cả FA và PCA đều có thể được nhìn thấy và có thể so sánh (mặc dù là khác biệt) như dự đoán các biến số của các yếu tố / thành phần (đơn vị được lấy theo tỷ lệ). Tải trọng là hệ số của dự đoán đó. Vì vậy, tải được sử dụng và là các thuật ngữ hợp lệ, có nghĩa là điều tương tự, cả trong FA và trong các trường PCA.
ttnphns

3
Ngoài ra, thật đáng tiếc khi một số nguồn (đặc biệt là tài liệu R) đã vô tình gọi eigenvectorcoefficents là "loadings" - chúng không chứa tải trong đó.
ttnphns

Chỉ là FA và PCA đang ước tính một mô hình khác nhau. Trong FA, các lỗi là trực giao trong PCA. Tôi không thấy nhiều điểm khi so sánh kết quả, trừ khi người ta đang câu cá cho một người mẫu. Tải trọng là các cột của ma trận Lđược sử dụng để viết các ma trận hiệp phương sai như S = LL' + Cnơi Clà một ma trận đường chéo. chúng không liên quan gì đến hệ số của PC.
Marco Stamazza

they have nothing to do with the PCs' coefficientsChúng tôi tính toán tải trong PCA giống như chúng tôi làm trong FA. Các mô hình là khác nhau nhưng ý nghĩa của tải là tương tự trong cả hai phương pháp.
ttnphns

0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Loadings = Orthonatural Eigenvector⋅ Căn bậc hai của (Giá trị Eigen tuyệt đối) Ở đây vectơ eigen trực giao (tức là thuật ngữ Orthon normal Eigenvector) cung cấp một hướng và thuật ngữ Căn bậc hai của (giá trị Eigen tuyệt đối) cung cấp giá trị.

Thông thường mọi người nói rằng các dấu hiệu trong tải trọng không quan trọng nhưng độ lớn của nó là quan trọng. Nhưng nếu chúng ta đảo ngược hướng của một vectơ riêng (giữ dấu của các vectơ riêng khác) thì điểm số của yếu tố sẽ được thay đổi. Do đó các phân tích sâu hơn sẽ bị ảnh hưởng đáng kể.

Tôi không thể có được giải pháp thỏa đáng cho sự mơ hồ này cho đến nay.


0

Dường như có một số nhầm lẫn về vấn đề này, vì vậy tôi sẽ cung cấp một số quan sát và một con trỏ đến nơi có thể tìm thấy một câu trả lời xuất sắc trong tài liệu.

Thứ nhất, PCA và Phân tích nhân tố (FA) liên quan. Nói chung, các thành phần chính là trực giao theo định nghĩa trong khi các yếu tố - thực thể tương tự trong FA - thì không. Nói một cách đơn giản, các thành phần chính bao trùm không gian nhân tố theo cách tùy ý nhưng không nhất thiết là hữu ích do chúng được lấy từ phân tích dữ liệu thuần túy của dữ liệu. Mặt khác, các yếu tố đại diện cho các thực thể trong thế giới thực chỉ là trực giao (tức là không tương quan hoặc độc lập) bởi sự trùng hợp.

Giả sử chúng ta lấy s quan sát từ mỗi l đối tượng. Chúng có thể được sắp xếp thành ma trận dữ liệu Dcác hàng s và cột l . D có thể được phân tách thành ma trận điểm S và ma trận tải L sao cho D = SL . S sẽ có s hàng và L sẽ có l cột, thứ nguyên thứ hai của mỗi là số lượng n . Mục đích của phân tích nhân tố là để phân hủy Dtheo cách để tiết lộ các điểm và yếu tố cơ bản. Các tải trọng trong L cho chúng tôi biết tỷ lệ của mỗi điểm tạo nên những quan sát trong D .

Trong PCA, L có các hàm riêng của ma trận tương quan hoặc hiệp phương sai của D là các cột của nó. Chúng được sắp xếp theo thứ tự theo thứ tự giảm dần của các giá trị riêng tương ứng. Giá trị của n - tức là số lượng các thành phần chính quan trọng cần giữ lại trong phân tích, và do đó số lượng hàng L - thường được xác định thông qua việc sử dụng một biểu đồ scree của giá trị riêng hoặc một trong nhiều phương thức khác được tìm thấy trong văn học Các cột của S trong PCA tự tạo thành n thành phần chính trừu tượng. Giá trị của n là thứ nguyên cơ bản của tập dữ liệu.

Mục tiêu của phân tích nhân tố là để biến đổi các thành phần trừu tượng đến các yếu tố có ý nghĩa thông qua việc sử dụng một chuyển đổi ma trận TD = STT -1 L . ( ST ) là ma trận điểm được chuyển đổi và ( T -1 L ) là ma trận tải được chuyển đổi.

Lời giải thích trên đại khái tuân theo ký hiệu của Edmund R. Malinowski từ Phân tích nhân tố xuất sắc trong Hóa học . Tôi đánh giá cao các chương mở đầu như là một giới thiệu về chủ đề này.


Câu trả lời này dường như có một số vấn đề. Đầu tiên, hãy kiểm tra công thức của bạn, xin vui lòng, chúng không chính xác. Thứ hai, bạn đang cố gắng thảo luận về sự khác biệt giữa FA và PCA. Chúng tôi có một luồng dài riêng biệt trên CV cho điều đó, trong khi luồng hiện tại là về tải so với eigenvector, vì vậy câu trả lời bị đặt sai. Thứ ba, hình ảnh về FA của bạn bị bóp méo, đặc biệt là trong các cụm từ như "mục đích của FA là phân hủy D" hoặc "đối tượng của FA là biến các thành phần trừu tượng thành các yếu tố có ý nghĩa".
ttnphns

Tôi coi các tài liệu tôi đã đăng có liên quan đến cuộc thảo luận trong chủ đề này, và nó đưa ra một lời giải thích về mối quan hệ giữa tải và eigenvector.
Matt Wenham

Nghiên cứu của tôi về chủ đề này được tóm tắt trong bài báo này: onlinel Library.wiley.com/doi/10.1002/sia.740231303/full
Matt Wenham

OK, có thể tài khoản của bạn là một tài khoản đặc biệt vẫn còn hiệu lực - Tôi không thể nói rằng bạn không đọc các nguồn bạn cung cấp. Tuy nhiên, tôi nhận xét rằng "mối quan hệ" giữa các tải và trình phát sinh trong PCA là tất cả trong công thức của nó được đặt trong câu hỏi; vì vậy hầu như không có gì để "giải thích" (giải thích nên là tiện ích khác nhau của chúng). Một điều đáng chú ý nữa là Q chủ yếu nói về PCA chứ không phải FA. Và cuối cùng, không phải mọi phương thức FA đều liên quan đến các hàm riêng, trong khi nó nhất thiết phải xử lý các tải.
ttnphns

Xin lỗi, tôi không nghĩ rằng có một phiên bản công khai của bài báo của tôi, mặc dù bạn có thể truy cập qua Deepdyve.com với bản dùng thử hai tuần. Chương đầu tiên của cuốn sách của Malinowski có sẵn từ liên kết ở trên. Điều này bao gồm những điều cơ bản mà không đề cập đến phân tích sinh học. Tôi phải thừa nhận rằng tôi đã không biết rằng phân tích nhân tố có thể được thực hiện mà không cần phân tích riêng, như biến thể tôi đã sử dụng - phân tích nhân tố mục tiêu - thực hiện.
Matt Wenham

-1

Tôi hơi bối rối bởi những cái tên đó, và tôi đã tìm kiếm trong cuốn sách có tên "Phương pháp thống kê trong khoa học khí quyển", và nó đã cho tôi một bản tóm tắt về Thuật ngữ PCA khác nhau, đây là những ảnh chụp màn hình trong cuốn sách, hy vọng nó sẽ giúp ích.

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.