Có lý do chính đáng nào để sử dụng PCA thay vì EFA không? Ngoài ra, PCA có thể thay thế cho phân tích nhân tố không?


73

Trong một số ngành, PCA (phân tích thành phần chính) được sử dụng một cách có hệ thống mà không có bất kỳ biện minh nào, và PCA và EFA (phân tích nhân tố khám phá) được coi là từ đồng nghĩa.

Do đó, gần đây tôi đã sử dụng PCA để phân tích kết quả của nghiên cứu xác thực thang đo (21 mục trên thang đo Likert 7 điểm, được giả định để tổng hợp 3 yếu tố của 7 mục mỗi mục) và một nhà đánh giá hỏi tôi tại sao tôi chọn PCA thay vì EFA. Tôi đã đọc về sự khác biệt giữa cả hai kỹ thuật và dường như EFA được ưa chuộng chống lại PCA trong phần lớn câu trả lời của bạn ở đây.

Bạn có bất kỳ lý do tốt cho lý do tại sao PCA sẽ là một lựa chọn tốt hơn? Những lợi ích nào nó có thể cung cấp và tại sao nó có thể là một lựa chọn khôn ngoan trong trường hợp của tôi?


1
Câu hỏi tuyệt vời. Tôi có xu hướng không đồng ý với câu trả lời của ttnphns và sẽ cố gắng cung cấp một cái nhìn khác sau ngày hôm nay.
amip nói rằng Phục hồi lại

5
@amoeba Tôi đang root cho bạn trước. PCA chỉ là một kỹ thuật chuyển đổi có thể (đôi khi, rất) hữu ích. Không cần phải đánh bại nó hoặc thuộc tính cho ý định giả mạo hoặc không phù hợp. Bạn cũng có thể trích xuất một logarit.
Nick Cox

4
Dường như câu trả lời của ttnphns không phù hợp với PCA. Đối với tôi, anh ta dường như đang tranh luận rằng PCA không dựa trên giả định về các biến tiềm ẩn tạo ra dữ liệu của bạn, vì vậy nếu đó là những gì bạn đang cố gắng thực hiện, FA là một lựa chọn tốt hơn.
gung - Phục hồi Monica

1
FWIW, tôi đã không bình luận cụ thể về câu trả lời của ttphns, nhưng về những bình luận và chỉ trích tôi thường gặp phải những khoản phí mà PCA không làm điều gì đó mà nó không bao giờ có ý định hoặc không phù hợp.
Nick Cox

3
@NeilG: PCA không phải là mô hình phát sinh [xác suất], bởi vì nó không bao gồm thuật ngữ tiếng ồn và do đó không có khả năng liên quan đến nó. Có một khái quát xác suất mặc dù (PPCA), và nó liên quan rất chặt chẽ với PCA, xem câu trả lời của tôi ở đây.
amip nói phục hồi Monica

Câu trả lời:


95

Tuyên bố miễn trừ trách nhiệm: @ttnphns rất am hiểu về cả PCA và FA, và tôi tôn trọng ý kiến ​​của anh ấy và đã học được rất nhiều từ nhiều câu trả lời tuyệt vời của anh ấy về chủ đề này. Tuy nhiên, tôi có xu hướng không đồng ý với câu trả lời của anh ấy ở đây, cũng như với (rất nhiều) bài viết về chủ đề này ở đây trên CV, không chỉ của anh ấy; hay đúng hơn, tôi nghĩ rằng họ có khả năng áp dụng hạn chế.


Tôi nghĩ rằng sự khác biệt giữa PCA và FA được đánh giá cao.

Nhìn vào nó như thế: cả hai phương pháp đều cố gắng cung cấp một xấp xỉ thứ hạng thấp của ma trận hiệp phương sai (hoặc tương quan) nhất định. "Thứ hạng thấp" có nghĩa là chỉ một số lượng hạn chế (thấp) các yếu tố tiềm ẩn hoặc các thành phần chính được sử dụng. Nếu ma trận hiệp phương sai của dữ liệu là , thì các mô hình là:Cn×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Ở đây là một ma trận có cột (trong đó thường được chọn là một số nhỏ, ), đại diện cho thành phần hoặc yếu tố chính, là một ma trận nhận dạng và là một đường chéo ma trận. Mỗi phương thức có thể được định dạng là tìm (và phần còn lại) giảm thiểu [định mức của sự khác biệt] giữa bên trái và bên phải. k k k < n k I Ψ WWkkk<nkIΨW

PPCA là viết tắt của PCA xác suất và nếu bạn không biết đó là gì, thì bây giờ nó không còn quan trọng nữa. Tôi muốn đề cập đến nó, bởi vì nó phù hợp gọn gàng giữa PCA và FA, có độ phức tạp mô hình trung gian. Nó cũng đặt sự khác biệt lớn được cho là giữa PCA và FA vào viễn cảnh: mặc dù nó là mô hình xác suất (chính xác như FA), nhưng thực tế nó gần như tương đương với PCA ( trải qua cùng một không gian con).W

Quan trọng nhất, lưu ý rằng các mô hình chỉ khác nhau ở cách họ đối xử với các đường chéo của . Khi kích thước tăng, đường chéo trở nên ít quan trọng hơn (vì chỉ có phần tử trên đường chéo và nằm ngoài đường chéo). Kết quả là, đối với lớn thường không có nhiều sự khác biệt giữa PCA và FA, một quan sát hiếm khi được đánh giá cao. Đối với nhỏ họ thực sự có thể khác nhau rất nhiều. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Bây giờ để trả lời câu hỏi chính của bạn là tại sao mọi người trong một số ngành dường như thích PCA. Tôi đoán nó sôi nổi với thực tế là nó dễ hơn toán học rất nhiều so với FA (điều này không rõ ràng từ các công thức trên, vì vậy bạn phải tin tôi ở đây):

  1. PCA - cũng như PPCA, chỉ khác một chút, - có một giải pháp phân tích, trong khi FA thì không. Vì vậy, FA cần phải phù hợp với số lượng, tồn tại nhiều thuật toán để thực hiện nó, đưa ra các câu trả lời khác nhau và hoạt động theo các giả định khác nhau, v.v. Trong một số trường hợp, một số thuật toán có thể bị kẹt (ví dụ: "trường hợp heywood"). Đối với PCA, bạn thực hiện phân tách riêng và bạn đã hoàn tất; FA thì lộn xộn hơn rất nhiều.

    Về mặt kỹ thuật, PCA chỉ đơn giản xoay các biến và đó là lý do tại sao người ta có thể coi nó là một biến đổi đơn thuần, như @NickCox đã làm trong nhận xét của mình ở trên.

  2. Giải pháp PCA không phụ thuộc vào : bạn có thể tìm thấy ba PC đầu tiên ( ) và hai trong số đó sẽ giống hệt với những cái bạn sẽ tìm thấy nếu ban đầu bạn đặt . Điều đó không đúng với FA: giải pháp cho không nhất thiết phải có trong giải pháp cho . Điều này là phản trực giác và khó hiểu.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

Tất nhiên FA là mô hình linh hoạt hơn PCA (xét cho cùng, nó có nhiều tham số hơn) và thường có thể hữu ích hơn. Tôi không tranh cãi về điều đó. Điều tôi đang tranh luận, là tuyên bố rằng chúng rất khác nhau về mặt khái niệm với PCA là về "mô tả dữ liệu" và FA là về "tìm các biến tiềm ẩn". Tôi chỉ không thấy điều này là đúng [gần như].

Để nhận xét về một số điểm cụ thể được đề cập ở trên và trong các câu trả lời được liên kết:

  • "trong PCA, số lượng kích thước để trích xuất / giữ lại về cơ bản là chủ quan, trong khi trong EFA, số lượng là cố định và bạn thường phải kiểm tra một số giải pháp" - tốt, việc lựa chọn giải pháp vẫn mang tính chủ quan, vì vậy tôi không xem bất kỳ sự khác biệt về khái niệm ở đây. Trong cả hai trường hợp, được (chủ quan hoặc khách quan) được chọn để tối ưu hóa sự đánh đổi giữa sự phù hợp của mô hình và độ phức tạp của mô hình.k

  • "FA có thể giải thích các mối tương quan theo cặp (hiệp phương sai). PCA thường không thể làm điều đó" - không thực sự, cả hai đều giải thích mối tương quan tốt hơn và tốt hơn khi phát triển.k

  • Đôi khi có thêm sự nhầm lẫn phát sinh (nhưng không phải trong câu trả lời của @ ttnphns!) Do các thực tiễn khác nhau trong các quy tắc sử dụng PCA và FA. Ví dụ, đó là một thực tiễn phổ biến để xoay các yếu tố trong FA để cải thiện khả năng diễn giải. Điều này hiếm khi được thực hiện sau PCA, nhưng về nguyên tắc không có gì ngăn cản được. Vì vậy, mọi người thường có xu hướng nghĩ rằng FA mang đến cho bạn thứ gì đó "có thể hiểu được" và PCA thì không, nhưng đây thường chỉ là ảo ảnh.

Cuối cùng, hãy để tôi nhấn mạnh một lần nữa rằng cho rất nhỏ sự khác biệt giữa PCA và FA thực sự có thể lớn, và có thể một số những tuyên bố ủng hộ của FA được thực hiện với nhỏ trong tâm trí. Một ví dụ cực đoan, với một yếu tố duy nhất luôn có thể giải thích hoàn hảo mối tương quan, nhưng một PC có thể không thực hiện được điều đó khá tệ.n n = 2nnn=2


Cập nhật 1: mô hình tổng quát của dữ liệu

Bạn có thể thấy từ số lượng ý kiến ​​rằng những gì tôi đang nói được đưa ra để gây tranh cãi. Có nguy cơ làm ngập phần bình luận hơn nữa, đây là một số nhận xét liên quan đến "mô hình" (xem bình luận của @ttnphns và @gung). @ttnphns không thích điều đó, tôi đã sử dụng từ "mô hình" [của ma trận hiệp phương sai] để chỉ các xấp xỉ ở trên; đó là một vấn đề về thuật ngữ, nhưng cái mà ông gọi là "mô hình" là mô hình xác suất / tổng quát của dữ liệu :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Lưu ý rằng PCA không phải là mô hình xác suất và không thể được xây dựng theo cách này.

Sự khác biệt giữa PPCA và FA là ở thuật ngữ tiếng ồn: PPCA giả định cùng một phương sai tạp âm cho mỗi biến số, trong khi FA giả định các phương sai khác nhau ("tính duy nhất"). Sự khác biệt nhỏ này có hậu quả quan trọng. Cả hai mô hình có thể phù hợp với thuật toán tối đa hóa kỳ vọng chung. Đối với FA, không có giải pháp phân tích nào được biết đến, nhưng đối với PPCA, người ta có thể phân tích được giải pháp mà EM sẽ hội tụ (cả và ). Hóa ra, có các cột theo cùng một hướng nhưng có độ dài nhỏ hơn tải PCA tiêu chuẩn (Tôi bỏ qua các công thức chính xác). Vì lý do đó, tôi nghĩ rằng PPCA là "gần như" PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW trong cả hai trường hợp đều có cùng "không gian con chính".

Bằng chứng ( Tipping và Giám mục 1999 ) là một chút kỹ thuật; lý do trực quan cho lý do tại sao phương sai tạp âm đồng nhất dẫn đến một giải pháp đơn giản hơn nhiều là có cùng một hàm riêng như cho bất kỳ giá trị nào của , nhưng điều này không đúng với .C σ 2 C - ΨCσ2ICσ2CΨ

Vì vậy, vâng, @gung và @ttnphns nói đúng rằng FA dựa trên mô hình thế hệ còn PCA thì không, nhưng tôi nghĩ điều quan trọng là phải thêm rằng PPCA cũng dựa trên mô hình thế hệ, nhưng "gần như" tương đương với PCA . Sau đó, nó dường như là một sự khác biệt quan trọng như vậy.


Cập nhật 2: tại sao PCA cung cấp xấp xỉ tốt nhất cho ma trận hiệp phương sai, khi nó nổi tiếng là đang tìm kiếm phương sai tối đa?

PCA có hai công thức tương đương: ví dụ PC đầu tiên là (a) tối đa hóa phương sai của phép chiếu và (b) một công thức cung cấp lỗi tái cấu trúc tối thiểu. Tóm tắt hơn, có thể thấy sự tương đương giữa tối đa hóa phương sai và giảm thiểu lỗi tái cấu trúc bằng định lý Eckart-Young .

Nếu là ma trận dữ liệu (với các quan sát là hàng, biến là cột và cột được coi là trung tâm) và phân tách SVD của nó là , thì nó ai cũng biết rằng các cột của là các hàm riêng của ma trận phân tán (hoặc ma trận hiệp phương sai, nếu chia cho số lượng quan sát) và do đó chúng là các trục tối đa hóa phương sai (nghĩa là các trục chính). Nhưng bởi định lý Eckart-Young, đầu tiên máy tính cung cấp các rank- tốt nhất xấp xỉ để :X = U S VV C = XX = V S 2 V k k X X k = U k S k V k k X - X k 2XX=USVVC=XX=VS2VkkXXk=UkSkVk(ký hiệu này có nghĩa là chỉ lấy giá trị / vectơ lớn nhất) tối thiểu hóa .kXXk2

Đầu tiên máy tính cung cấp không chỉ rank- tốt nhất xấp xỉ để , mà còn để các ma trận hiệp phương sai . Thật vậy, và phương trình cuối cùng cung cấp phân tách SVD của (vì là trực giao và là đường chéo). Vì vậy, các định lý Eckert-Young cho chúng ta biết là tốt nhất rank- xấp xỉ để được cho bởi . Điều này có thể được chuyển đổi bằng cách nhận thấy rằngk X C C = XX = V S 2 VC V S 2 k C C k = V k S 2 k V k W = V S C k k = V k S 2 k V k = ( V S ) k ( V S ) k = WkkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS là các tải của PCA, và vì vậy

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

Điểm mấu chốt ở đây là như đã nêu ở phần đầu.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Cập nhật 3: chứng minh bằng số rằng PCA FA khin

Tôi đã được @ttnphns khuyến khích cung cấp một minh chứng bằng số cho tuyên bố của tôi rằng khi tính chiều tăng lên, giải pháp PCA tiếp cận giải pháp FA. Nó đi từ đây.

Tôi đã tạo ra ma trận tương quan ngẫu nhiên với một số tương quan chéo chéo mạnh. Sau đó, tôi đã lấy khối vuông phía trên bên trái của ma trận này với biến để nghiên cứu ảnh hưởng của thứ nguyên. Với mỗi , tôi đã thực hiện PCA và FA với số thành phần / yếu tố và với mỗi tôi đã tính toán lỗi tái tạo đường chéo (lưu ý rằng trên đường chéo, FA tái tạo lại một cách hoàn hảo, don × n C n = 25 , 50 , ... 200 n k = 1 ... 5200×200 n×nCn=25,50,200nk=15i j [ C - W W] 2 i j C Ψ n k 1k

ij[CWW]ij2
CΨhạn, trong khi PCA thì không; nhưng đường chéo được bỏ qua ở đây). Sau đó, với mỗi và , tôi đã tính tỷ lệ lỗi đường chéo PCA với lỗi đường chéo FA. Tỷ lệ này phải trên , vì FA cung cấp sự tái cấu trúc tốt nhất có thể.nk1

Lỗi tái cấu trúc đường chéo PCA vs FA

Ở bên phải, các dòng khác nhau tương ứng với các giá trị khác nhau của và được hiển thị trên trục hoành. Lưu ý rằng khi tăng lên, các tỷ lệ (cho tất cả ) tiếp cận , có nghĩa là PCA và FA mang lại cùng một tải, PCA FA. Với tương đối nhỏ , ví dụ khi , PCA thực hiện [dự kiến] tệ hơn, nhưng sự khác biệt không mạnh đối với nhỏ và thậm chí với , tỷ lệ này là dưới .n n k 1 n n = 25 k k = 5 1.2knnk1nn=25kk=51.2

Tỷ lệ có thể trở nên lớn khi số lượng yếu tố trở nên tương đương với số lượng biến . Trong ví dụ tôi đã đưa ra ở trên với và , FA đạt được lỗi tái cấu trúc , trong khi PCA thì không, tức là tỷ lệ sẽ là vô hạn. Nhưng nhận được trở lại câu hỏi ban đầu, khi và , PCA sẽ chỉ vừa thua FA trong việc giải thích phần off-đường chéo của .n n = 2 k = 1 0 n = 21 k = 3 Cknn=2k=10n=21k=3C

Để biết ví dụ minh họa về PCA và FA được áp dụng cho bộ dữ liệu thực (bộ dữ liệu rượu vang với ), hãy xem câu trả lời của tôi ở đây:n=13


2
Tôi chỉ định đặt một câu hỏi về sự khác biệt toán học giữa các kỹ thuật, vì hầu hết các câu trả lời (nếu không xuất sắc) về chủ đề ở đây không đưa ra so sánh toán học rõ ràng. Câu trả lời này chính xác là những gì tôi đang tìm kiếm.
Shadowtalker

2
Đây là tài khoản rất có giá trị, mở ra với quan điểm mới. Việc đưa PPCA làm kỹ thuật ở giữa là rất quan trọng - đó là từ ý kiến ​​của bạn phát triển. Tôi có thể yêu cầu bạn để lại nhiều dòng về PPCA? - là gì, ước tính như thế nào (một cách ngắn gọn) và điều gì làm cho nó khác với để PPC (không giống như các yếu tố) điền vào không gian con của các biến và PPC không phụ thuộc vào . Ψ kσ2Ψk
ttnphns

3
Tôi tiếp tục đồng ý với w / ttnphns ở đây, và sự khác biệt rằng FA dựa trên các biến tiềm ẩn trong khi PCA chỉ là một biến đổi của dữ liệu. Tuy nhiên, đây là lý do rất tốt và một vị trí trái ngược hữu ích. Nó đóng góp vào chất lượng của chủ đề này. +1
gung - Phục hồi Monica

5
@amoeba TRẢ LỜI CỦA BẠN LÀ TUYỆT VỜI. Nó rất rõ ràng và hài lòng. Cảm ơn đã chia sẻ tầm nhìn của bạn.
Subhash C. Davar

2
@ user795305 Xin lỗi, tôi quên trả lời. Mô hình FA được viết trong Cập nhật 1 là chính xác. tiềm ẩn thực sự được cho là từ và độc lập với . Giải pháp ML cho và thực sự KHÔNG giảm thiểu định mức của như tôi đã viết trong Bản cập nhật 2; đó là cẩu thả và không chính xác. Tôi nên sửa nó, cảm ơn. Tuy nhiên, tôi nghĩ không sao khi nói rằng giải pháp ML sao cho ; chỉ là hàm mất mát ở đây không phải là chuẩn của sự khác biệt mà là một biểu thức phức tạp hơn (khả năng được đưa ra ). N ( 0 , I ) ε W Ψ C - W W - Ψ C W W + Ψ C W W + ΨzN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
amip nói phục hồi Monica

27

Như bạn đã nói, bạn quen thuộc với các câu trả lời có liên quan ; xem thêm : So, as long as "Factor analysis..."+ một vài đoạn cuối; và danh sách dưới cùng ở đây . Nói tóm lại, PCA chủ yếu là một kỹ thuật giảm dữ liệu trong khi FA là một kỹ thuật mô hình hóa các đặc điểm tiềm ẩn. Đôi khi chúng xảy ra để cho kết quả tương tự; nhưng trong trường hợp của bạn - bởi vì bạn có thể cảm thấy muốn xây dựng / xác nhận các đặc điểm tiềm ẩn như thể các thực thể thực sự - sử dụng FA sẽ trung thực hơn và bạn không nên thích PCA với hy vọng rằng kết quả của chúng hội tụ. Mặt khác, bất cứ khi nào bạn định tóm tắt / đơn giản hóa dữ liệu - ví dụ để phân tích tiếp theo - bạn sẽ thích PCA hơn, vì nó không áp dụng bất kỳ mô hình mạnh nào (có thể không liên quan) lên dữ liệu.

Để nhắc lại cách nào khác, PCA mang đến cho bạn kích thước mà có thể tương ứng với một số chủ quan có ý nghĩa cấu trúc, nếu bạn muốn, trong khi EFA đặt ra rằng những người thậm chí còn tính năng bí mật mà thực sự tạo ra dữ liệu của bạn, và nó nhằm mục đích tìm những tính năng. Trong FA, việc giải thích các kích thước (yếu tố) đang chờ xử lý - cho dù bạn có thể gắn ý nghĩa với biến tiềm ẩn hay không, thì nó "tồn tại" (FA là thiết yếu), nếu không, bạn nên bỏ nó khỏi mô hình hoặc nhận thêm dữ liệu để hỗ trợ nó Trong PCA, ý nghĩa của kích thước là tùy chọn.

Và một lần nữa nói cách khác: Khi bạn trích xuất m các yếu tố (tách các yếu tố khỏi lỗi), một số yếu tố này giải thích (gần như) tất cả các mối tương quan giữa các biến, do đó, các biến không được để lại tương quan thông qua các lỗi. Do đó, miễn là "các yếu tố" được định nghĩa là các đặc điểm tiềm ẩn tạo ra / liên kết dữ liệu tương quan, bạn có đầy đủ manh mối để giải thích rằng - điều gì chịu trách nhiệm cho các mối tương quan. Trong PCA (trích xuất các thành phần như thể "các yếu tố"), lỗi (có thể) vẫn tương quan giữa các biến; vì vậy bạn không thể tuyên bố rằng bạn đã trích xuất một cái gì đó đủ sạch sẽ và đầy đủ để được diễn giải theo cách đó.

Bạn có thể muốn đọc câu trả lời khác của tôi, dài hơn trong cuộc thảo luận hiện tại, đối với một số chi tiết thử nghiệm lý thuyết và mô phỏng về việc PCA có phải là sự thay thế khả thi của FA hay không. Xin hãy chú ý đến câu trả lời nổi bật của @amoeba được đưa ra trên chủ đề này.


Trình cập nhật : Trong câu trả lời của họ cho câu hỏi này @amoeba, người phản đối ở đó, đã giới thiệu một kỹ thuật PPCA (không nổi tiếng) khi đứng giữa PCA và FA. Điều này tự nhiên đưa ra logic rằng PCA và FA nằm dọc theo một dòng chứ không phải ngược lại. Cách tiếp cận có giá trị đó mở rộng chân trời lý thuyết của một người. Nhưng nó có thể che giấu sự khác biệt thực tế quan trọng về việc FA tái cấu trúc (giải thích) tất cả các hiệp phương sai theo cặp với một vài yếu tố, trong khi PCA không thể thực hiện thành công (và đôi khi nó xảy ra - đó là vì nó đã xảy ra với mime FA).


Cảm ơn câu trả lời của bạn! Kết quả của FA thực sự chủ yếu hội tụ với kết quả thu được thông qua PCA. Điều duy nhất là: các tác giả của nghiên cứu ban đầu (của tôi là bản dịch + xác nhận) đã sử dụng phân tích PCA. Điều này có đủ để giữ phân tích PCA trong bài báo của tôi và có lẽ để thêm một câu giải thích rằng kết quả FA hội tụ, hoặc tôi nên thay thế PCA bằng FA? Lưu ý rằng người đánh giá không thực sự yêu cầu chúng tôi làm như vậy, anh ta chỉ yêu cầu biện minh tại sao chúng tôi chọn PCA thay vì FA.
Carine

Tôi nghĩ: nếu các tác giả sử dụng PCA nhưng cách tiếp cận trung thực / nghiêm ngặt hơn sẽ yêu cầu EFA trong trường hợp của họ, bạn nên bỏ một dòng phê bình và sau đó thực hiện PCA hoặc cả PCA và EFA, để so sánh kết quả.
ttnphns

2
Cũng lưu ý sự khác biệt là trong PCA, số lượng kích thước để trích xuất / giữ lại về cơ bản là chủ quan, trong khi ở EFA, số này là cố định và bạn thường phải kiểm tra một số giải pháp, ví dụ 3 mặc dù 5 yếu tố, về mức độ của chúng tái tạo ma trận tương quan và mức độ dễ hiểu của chúng. FA thì tẻ nhạt hơn, đó là lý do tại sao mọi người thường thích làm PCA trong những trường hợp mà cách tiếp cận có lương tâm kêu gọi thử một số lần vượt qua EFA.
ttnphns

Cũng xem mục Wikipedia: en.wikipedia.org/wiki/
Kẻ

15

Trong câu trả lời này của tôi (một giây và bổ sung cho câu hỏi khác của tôi ở đây) tôi sẽ cố gắng thể hiện bằng hình ảnh rằng PCA không khôi phục hiệp phương sai bất kỳ (trong khi nó khôi phục - tối đa hóa - phương sai một cách tối ưu).

Như trong một số câu trả lời của tôi về PCA hoặc phân tích nhân tố, tôi sẽ chuyển sang biểu diễn vectơ của các biến trong không gian chủ đề . Trong trường hợp này, nó chỉ là một biểu đồ tải hiển thị các biến và tải thành phần của chúng. Vì vậy, chúng tôi đã nhận và các biến (chúng tôi chỉ có hai trong tập dữ liệu đã có), thành phần chính 1 của họ, với tải trọng và . Góc giữa các biến cũng được đánh dấu. Các biến được tập trung sơ bộ, do đó độ dài bình phương của chúng, và là phương sai tương ứng của chúng.X 2 F a 1 a 2 h 2 1 h 2 2X1X2Fa1a2h12h22

nhập mô tả hình ảnh ở đây

Hiệp phương sai giữa và là - đó là sản phẩm vô hướng của họ - (nhân tiện, cosin này là giá trị tương quan). Tất nhiên, tải PCA, nắm bắt tối đa khả năng của phương sai tổng thể bởi , phương sai của thành phầnX 2 h 1 h 2 c o s ϕ h 2 1 + h 2 2 a 2 1 + a 2 2 FX1X2h1h2cosϕh12+h22a12+a22F

Bây giờ, hiệp phương sai , trong đó là hình chiếu của biến trên biến (hình chiếu là dự đoán hồi quy của biến thứ nhất theo giây). Và do đó, cường độ của hiệp phương sai có thể được biểu hiện bằng diện tích của hình chữ nhật bên dưới (với các cạnh và ).g 1 X 1 X 2 g 1 h 2h1h2cosϕ=g1h2g1X1X2g1h2

nhập mô tả hình ảnh ở đây

Theo cái gọi là "định lý nhân tố" (có thể biết nếu bạn đọc một cái gì đó về phân tích nhân tố), hiệp phương sai giữa các biến phải được (gần đúng, nếu không chính xác) được sao chép bằng cách nhân tải của biến tiềm ẩn được trích xuất (s) ( đọc ). Đó là, bởi, , trong trường hợp cụ thể của chúng tôi (nếu nhận ra thành phần chính là biến tiềm ẩn của chúng tôi). Đó là giá trị của hiệp phương sai sao chép có thể được trả lại bằng diện tích của một hình chữ nhật có cạnh và . Hãy để chúng tôi vẽ hình chữ nhật, căn chỉnh bởi hình chữ nhật trước, để so sánh. Hình chữ nhật đó được hiển thị nở bên dưới và khu vực của nó có biệt danh là cov * ( cov sao chép ).a 1 a 2a1a2a1a2

nhập mô tả hình ảnh ở đây

Rõ ràng là hai khu vực khá giống nhau, với ví dụ * lớn hơn đáng kể trong ví dụ của chúng tôi. Hiệp phương sai đã được đánh giá quá cao bởi các tải của , thành phần chính thứ nhất. Điều này trái ngược với ai đó có thể mong đợi rằng PCA, chỉ bằng thành phần thứ nhất trong hai thành phần có thể, sẽ khôi phục giá trị quan sát của hiệp phương sai.F

Chúng ta có thể làm gì với âm mưu của mình để tạo ra sự sinh sản? Ví dụ, chúng ta có thể xoay chùm theo chiều kim đồng hồ một chút, thậm chí cho đến khi nó chồng lên với . Khi các dòng của chúng trùng nhau, điều đó có nghĩa là chúng tôi đã buộc là biến tiềm ẩn của chúng tôi. Sau đó, tải (hình chiếu của trên đó) sẽ là và tải (hình chiếu của trên đó) sẽ là . Sau đó, hai hình chữ nhật là cùng một - hình chữ nhật được dán nhãn cov , và do đó hiệp phương sai được tái tạo hoàn hảo. Tuy nhiên, , phương sai được giải thích bởi "biến tiềm ẩn" mới, nhỏ hơnX 2 X 2 a 2 X 2 h 2 a 1 X 1 g 1 g 2 1 + h 2 2 a 2 1 + a 2 2FX2X2a2X2h2a1X1g1g12+h22a12+a22 , phương sai được giải thích bởi biến tiềm ẩn cũ, thành phần chính thứ 1 (vuông và xếp cạnh của hai hình chữ nhật trên hình, để so sánh). Có vẻ như chúng tôi đã cố gắng tái tạo hiệp phương sai, nhưng với chi phí giải thích số lượng phương sai. Tức là bằng cách chọn một trục tiềm ẩn khác thay vì thành phần chính đầu tiên.

Trí tưởng tượng hoặc phỏng đoán của chúng tôi có thể gợi ý (tôi sẽ không và có thể không thể chứng minh điều đó bằng toán học, tôi không phải là nhà toán học) rằng nếu chúng ta giải phóng trục tiềm ẩn từ không gian được xác định bởi và , mặt phẳng, cho phép nó xoay một chút về phía chúng ta, chúng ta có thể tìm thấy một số vị trí tối ưu của nó - gọi nó là - theo đó hiệp phương sai được tái tạo hoàn hảo bởi các tải trọng nổi ( ) trong khi phương sai giải thích ( ) sẽ được lớn hơn , mặc dù không lớn như của các thành phần chính .X 2 F a 1 a 2 a 2 1 + a 2 2 g 2 1 + h 2 2 a 2 1 + a 2 2 FX1X2Fa1a2a12+a22g12+h22a12+a22F

Tôi tin rằng điều kiện này có thể đạt được, đặc biệt trong trường hợp đó khi trục tiềm ẩn được kéo ra khỏi mặt phẳng theo cách kéo "mũ trùm" của hai mặt phẳng trực giao dẫn xuất, một mặt phẳng chứa trục và và cái kia chứa trục và . Sau đó, trục tiềm ẩn này, chúng tôi sẽ gọi yếu tố chung và toàn bộ "nỗ lực nguyên bản" của chúng tôi sẽ được đặt tên là phân tích nhân tố .X 1 X 2FX1X2


Trả lời "Cập nhật 2" của @ amo đối với PCA.

@amoeba là chính xác và có liên quan để nhớ lại định lý Eckart-Young, điều cơ bản cho PCA và các kỹ thuật bẩm sinh của nó (PCoA, biplot, phân tích tương ứng) dựa trên phân tích SVD hoặc phân tích eigen. Theo đó, trục chính đầu tiên của tối thiểu hóa tối đa - một đại lượng bằng , - cũng như . Ở đây là viết tắt của dữ liệu được sao chép bởi các trục chính . được biết là bằng , với là tải trọng biến củaX | | X - X k | | 2 t r ( X X ) - t r ( X k X k ) | | X ' X - X ' k X k | | 2 X k k X k X k W k W k W k kkX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk các thành phần.

Điều đó có nghĩa là tối thiểu hóa vẫn đúng nếu chúng ta chỉ xem xét các phần ngoài đường chéo của cả hai ma trận đối xứng? Hãy kiểm tra nó bằng cách thử nghiệm.||XXXkXk||2

500 10x6ma trận ngẫu nhiên đã được tạo (phân phối đồng đều). Đối với mỗi cột, sau khi căn giữa các cột của nó, PCA đã được thực hiện và hai ma trận dữ liệu được xây dựng lại tính toán: một được tái tạo bởi các thành phần từ 1 đến 3 ( trước, như thường lệ trong PCA) và cái còn lại được xây dựng lại bởi các thành phần 1, 2 và 4 (nghĩa là thành phần 3 đã được thay thế bằng thành phần 4 yếu hơn). Lỗi tái cấu trúc (tổng bình phương chênh lệch = khoảng cách Euclide bình phương) sau đó được tính cho một , cho . Hai giá trị này là một cặp để hiển thị trên biểu đồ phân tán.X k k | | X ' X - X ' k X k | | 2 X k X kXXkk||XXXkXk||2XkXk

Các lỗi tái thiết được tính mỗi lần trong hai phiên bản: (a) toàn bộ ma trận và so; (b) chỉ các đường chéo của hai ma trận được so sánh. Như vậy, chúng ta có hai biểu đồ phân tán, với 500 điểm mỗi điểm.X k X kXXXkXk

nhập mô tả hình ảnh ở đây

Chúng ta thấy rằng, trên biểu đồ "toàn ma trận", tất cả các điểm nằm trên y=xđường thẳng. Điều đó có nghĩa là việc tái cấu trúc cho toàn bộ ma trận sản phẩm vô hướng luôn chính xác hơn bởi "1 đến 3 thành phần" so với "1, 2, 4 thành phần". Điều này phù hợp với định lý Eckart-Young nói: thành phần chính đầu tiên là những người tạo ra tốt nhất.k

Tuy nhiên, khi chúng ta nhìn vào âm mưu "chỉ đường chéo", chúng ta nhận thấy một số điểm bên dưới y=xđường kẻ. Có vẻ như đôi khi việc tái cấu trúc các phần ngoài đường chéo bằng "1 đến 3 thành phần" còn tệ hơn "1, 2, 4 thành phần". Điều này tự động dẫn đến kết luận rằng thành phần chính đầu tiên thường không phải là bộ phận tốt nhất của các sản phẩm vô hướng chéo trong số các bộ phận có sẵn trong PCA. Ví dụ, lấy một thành phần yếu hơn thay vì mạnh hơn đôi khi có thể cải thiện việc tái cấu trúc.k

Vì vậy, ngay cả trong lĩnh vực của PCA , các thành phần chính cao cấp - những người thực hiện gần đúng phương sai tổng thể, như chúng ta biết, và thậm chí toàn bộ ma trận hiệp phương sai, - không nhất thiết phải xấp xỉ hiệp phương sai . Do đó tối ưu hóa tốt hơn những thứ được yêu cầu; và chúng tôi biết rằng phân tích nhân tố là kỹ thuật (hoặc trong số) có thể cung cấp nó.


Theo dõi "Cập nhật 3" của @ amoeba: PCA có tiếp cận FA khi số lượng biến tăng lên không? PCA có phải là sự thay thế hợp lệ của FA không?

Tôi đã tiến hành một mạng lưới các nghiên cứu mô phỏng. Một số ít cấu trúc yếu tố dân số, tải ma trận được xây dựng theo số ngẫu nhiên và được chuyển đổi thành ma trận hiệp phương sai dân số tương ứng của họ là , với là nhiễu chéo (duy nhất phương sai). Các ma trận hiệp phương sai này được thực hiện với tất cả các phương sai 1, do đó chúng bằng với các ma trận tương quan của chúng.R = A A ' + U 2 U 2AR=AA+U2U2

Hai loại cấu trúc nhân tố đã được thiết kế - sắc nétkhuếch tán . Cấu trúc sắc nét là một cấu trúc đơn giản rõ ràng: tải trọng là "cao" của "thấp", không có trung gian; và (trong thiết kế của tôi) mỗi biến được tải cao chính xác bởi một yếu tố. Do đó, tương ứng giống như khối thông báo. Cấu trúc khuếch tán không phân biệt giữa tải cao và thấp: chúng có thể là bất kỳ giá trị ngẫu nhiên nào trong một ràng buộc; và không có mô hình trong tải được hình thành. Do đó, tương ứng mượt mà hơn. Ví dụ về ma trận dân số:RRR

nhập mô tả hình ảnh ở đây

Số lượng các yếu tố là hoặc . Số lượng biến được xác định bởi tỷ lệ k = số biến trên mỗi yếu tố ; k chạy các giá trị trong nghiên cứu.6 4 , 7 , 10 , 13 , 16264,7,10,13,16

Đối với mỗi dân số được xây dựng , hiện thực ngẫu nhiên của nó từ phân phối Wishart (dưới cỡ mẫu ) đã được tạo. Đây là các ma trận hiệp phương sai mẫu . Mỗi yếu tố được phân tích bởi FA (bằng cách trích trục chính) cũng như PCA . Ngoài ra, mỗi ma trận hiệp phương sai như vậy đã được chuyển đổi thành ma trận tương quan mẫu tương ứng cũng được phân tích theo yếu tố (bao thanh toán) theo cùng một cách. Cuối cùng, tôi cũng đã thực hiện bao thanh toán của ma trận "cha mẹ", chính hiệp phương sai dân số (= tương quan). Đo lường mức độ thỏa đáng lấy mẫu của Kaiser-Meyer-Olkin luôn ở mức trên 0,7.50R50n=200

Đối với dữ liệu có 2 yếu tố, các phân tích trích xuất 2, và 1 cũng như 3 yếu tố ("đánh giá thấp" và "đánh giá quá cao" về số lượng chính xác của các chế độ yếu tố). Đối với dữ liệu có 6 yếu tố, các phân tích tương tự trích xuất 6, và 4 cũng như 8 yếu tố.

Mục đích của nghiên cứu là chất lượng phục hồi hiệp phương sai / tương quan của FA so với PCA. Do đó, phần dư của các yếu tố ngoài đường chéo đã thu được. Tôi đã đăng ký phần dư giữa các phần tử được sao chép và phần tử ma trận dân số, cũng như phần dư giữa phần tử ma trận mẫu trước và phần tử mẫu được phân tích. Phần dư của loại 1 về mặt khái niệm thú vị hơn.

Kết quả thu được sau khi phân tích được thực hiện trên hiệp phương sai mẫu và trên ma trận tương quan mẫu có sự khác biệt nhất định, nhưng tất cả các kết quả chính xảy ra là tương tự nhau. Do đó, tôi chỉ thảo luận (hiển thị kết quả) về các phân tích "chế độ tương quan".

1. Nhìn chung đường chéo phù hợp bởi PCA vs FA

Đồ họa bên dưới cốt truyện, chống lại nhiều yếu tố khác nhau và k khác nhau, tỷ lệ trung bình dư đường chéo trung bình mang lại trong PCA với cùng một lượng mang lại trong FA . Điều này tương tự với những gì @amoeba đã thể hiện trong "Cập nhật 3". Các dòng trên cốt truyện thể hiện xu hướng trung bình trên 50 mô phỏng (tôi bỏ qua hiển thị các thanh lỗi st trên chúng).

(Lưu ý: kết quả là về bao thanh toán các ma trận tương quan mẫu ngẫu nhiên , chứ không phải về việc bao thanh toán ma trận dân số đối với họ: thật ngớ ngẩn khi so sánh PCA với FA về việc họ giải thích ma trận dân số như thế nào - FA sẽ luôn chiến thắng và nếu số lượng chính xác của các yếu tố được trích xuất, phần dư của nó sẽ gần như bằng không, và vì vậy tỷ lệ sẽ lao về phía vô tận.)

nhập mô tả hình ảnh ở đây

Bình luận các lô này:

  • Khuynh hướng chung: khi k (số biến trên mỗi yếu tố) tăng tỷ lệ phụ tổng thể PCA / FA giảm dần về 1. Đó là, với nhiều biến hơn PCA tiếp cận FA trong việc giải thích các mối tương quan / hiệp phương sai. (Tài liệu của @amoeba trong câu trả lời của anh ấy.) Có lẽ luật gần đúng với các đường cong là ratio = exp (b0 + b1 / k) với b0 gần bằng 0.
  • Tỷ lệ phần trăm còn lại lớn hơn wrt mẫu trừ đi mẫu sao chép (mẫu trái) so với số dư wrt dân số trừ đi mẫu sao chép lại (lô phải). Đó là (tầm thường), PCA kém hơn FA trong việc phù hợp với ma trận được phân tích ngay lập tức. Tuy nhiên, các dòng trên ô bên trái có tốc độ giảm nhanh hơn, do đó, với k = 16, tỷ lệ này cũng nằm dưới 2, vì nó nằm trên ô bên phải.
  • Với dân số còn lại trừ đi mẫu sao chép, xu hướng không phải lúc nào cũng lồi hoặc thậm chí là đơn điệu (khuỷu tay bất thường được hiển thị khoanh tròn). Vì vậy, miễn là bài phát biểu nói về việc giải thích một ma trận dân số của các hệ số thông qua bao thanh toán một mẫu, việc tăng số lượng biến không thường xuyên đưa PCA đến gần hơn với chất lượng fittinq của nó, mặc dù xu hướng là có.
  • Tỷ lệ này lớn hơn đối với m = 2 yếu tố so với m = 6 yếu tố trong dân số (đường màu đỏ đậm nằm dưới đường màu xanh đậm). Điều đó có nghĩa là với nhiều yếu tố hoạt động trong dữ liệu, PCA sẽ sớm bắt kịp FA. Ví dụ, trên biểu đồ bên phải k = 4 tỷ lệ sinh ra khoảng 1,7 cho 6 yếu tố, trong khi giá trị tương tự cho 2 yếu tố đạt được tại k = 7.
  • Tỷ lệ này cao hơn nếu chúng ta trích xuất nhiều yếu tố hơn so với số lượng yếu tố thực sự. Đó là, PCA chỉ kém hơn một chút so với FA nếu khi trích xuất chúng ta đánh giá thấp số lượng các yếu tố; và nó sẽ mất nhiều hơn nếu số lượng các yếu tố là chính xác hoặc được đánh giá quá cao (so sánh các dòng mỏng với các dòng đậm).
  • Có một hiệu ứng thú vị về độ sắc nét của cấu trúc nhân tố chỉ xuất hiện nếu chúng ta xem xét phần dư dân số trừ đi mẫu được tái tạo: so sánh các ô màu xám và màu vàng ở bên phải. Nếu các yếu tố dân số tải các biến khác nhau, các đường màu đỏ (m = 6 yếu tố) chìm xuống đáy. Đó là, trong cấu trúc khuếch tán (chẳng hạn như tải các số hỗn loạn) PCA (được thực hiện trên một mẫu) chỉ kém hơn FA trong việc tái cấu trúc các mối tương quan dân số - ngay cả dưới k nhỏ, với điều kiện là số lượng các yếu tố trong dân số không rất nhỏ. Đây có lẽ là điều kiện khi PCA gần gũi nhất với FA và được bảo hành nhiều nhất như là công cụ thay thế máy quét. Trong khi với sự hiện diện của cấu trúc nhân tố sắc bén, PCA không quá lạc quan trong việc tái cấu trúc các mối tương quan dân số (hay hiệp phương sai): nó chỉ tiếp cận FA trong viễn cảnh k lớn.

2. Mức độ phù hợp với yếu tố của PCA so với FA: phân phối phần dư

Đối với mọi thí nghiệm mô phỏng trong đó bao thanh toán (bằng PCA hoặc FA) của 50 ma trận mẫu ngẫu nhiên từ ma trận dân số đã được thực hiện, phân phối phần dư "tương quan dân số trừ đi được tái tạo (bằng cách bao thanh toán) tương quan mẫu" được lấy cho mọi yếu tố tương quan chéo. Các bản phân phối tuân theo các mẫu rõ ràng và các ví dụ về các bản phân phối điển hình được mô tả ngay bên dưới. Kết quả sau bao thanh toán PCA là bên trái màu xanh và kết quả sau bao thanh toán FA là bên phải màu xanh lá cây.

nhập mô tả hình ảnh ở đây

Phát hiện chính là

  • Được phát âm, theo cường độ tuyệt đối, các mối tương quan dân số được PCA khôi phục một cách không thỏa đáng: các giá trị được sao chép được đánh giá quá cao theo độ lớn.
  • Nhưng sự thiên vị biến mất khi k (số lượng biến số thành tỷ lệ các yếu tố) tăng lên. Trên pic, khi chỉ có k = 4 biến cho mỗi yếu tố, phần dư của PCA lan truyền trong offset từ 0. Điều này được thấy cả khi tồn tại 2 yếu tố và 6 yếu tố. Nhưng với k = 16, phần bù hầu như không được nhìn thấy - nó gần như biến mất và PCA phù hợp với phương pháp phù hợp FA. Không có sự khác biệt về chênh lệch (phương sai) của phần dư giữa PCA và FA được quan sát.

Bức tranh tương tự cũng được nhìn thấy khi số lượng các yếu tố được trích xuất không khớp với số lượng các yếu tố thực sự: chỉ có phương sai của phần dư thay đổi.

Phân phối hiển thị ở trên trên nền màu xám liên quan đến các thí nghiệm với sắc nét (đơn giản) cấu trúc yếu tố hiện diện trong dân số. Khi tất cả các phân tích được thực hiện trong tình huống cấu trúc yếu tố dân số khuếch tán , người ta thấy rằng sự thiên vị của PCA biến mất không chỉ với sự gia tăng của k, mà còn với sự gia tăng của m (số lượng các yếu tố). Vui lòng xem phần đính kèm nền màu vàng được giảm xuống cho cột "6 yếu tố, k = 4": hầu như không có độ lệch từ 0 được quan sát cho kết quả PCA (phần bù chưa xuất hiện với m = 2, không hiển thị trên pic ).

Nghĩ rằng những phát hiện được mô tả là quan trọng, tôi quyết định kiểm tra các phân phối dư đó sâu hơn và vẽ các biểu đồ tán xạ của phần dư (trục Y) so với giá trị phần tử (tương quan dân số) (trục X). Những phân tán này từng kết quả kết hợp của tất cả (50) mô phỏng / phân tích. Dòng phù hợp LOESS (50% điểm địa phương sẽ sử dụng, nhân Epanechnikov) được tô sáng. Tập hợp các ô đầu tiên dành cho trường hợp cấu trúc nhân tố sắc nét trong dân số (do đó tính chính xác của các giá trị tương quan là rõ ràng):

nhập mô tả hình ảnh ở đây

Bình luận:

  • Chúng ta thấy rõ xu hướng phục hồi (được mô tả ở trên), đặc trưng của PCA là đường xiên, xu hướng tiêu cực: lớn trong tương quan dân số giá trị tuyệt đối được PCA đánh giá quá cao của bộ dữ liệu mẫu. FA là không thiên vị (hoàng thổ ngang).
  • Khi k phát triển, sự thiên vị của PCA giảm dần.
  • PCA thiên vị bất kể có bao nhiêu yếu tố trong dân số: với 6 yếu tố tồn tại (và 6 yếu tố được trích xuất tại các phân tích), nó cũng bị lỗi tương tự như với 2 yếu tố tồn tại (2 yếu tố được trích xuất).

Nhóm ô thứ hai dưới đây dành cho trường hợp cấu trúc nhân tố khuếch tán trong dân số:

nhập mô tả hình ảnh ở đây

Một lần nữa chúng tôi quan sát sự thiên vị của PCA. Tuy nhiên, trái ngược với trường hợp cấu trúc nhân tố sắc nét, xu hướng giảm dần khi số lượng yếu tố tăng lên: với 6 yếu tố dân số, đường hoàng thổ của PCA không quá xa so với chỉ dưới 4. Đây là những gì chúng tôi đã thể hiện bởi " biểu đồ màu vàng "trước đó.

Một hiện tượng thú vị trên cả hai bộ phân tán là các đường hoàng thổ cho PCA có dạng cong S. Độ cong này cho thấy dưới các cấu trúc yếu tố dân số khác (tải trọng) do tôi (tôi đã kiểm tra) xây dựng ngẫu nhiên, mặc dù mức độ của nó thay đổi và thường yếu. Nếu theo hình chữ S thì PCA đó bắt đầu biến dạng tương quan nhanh chóng khi chúng bật từ 0 (đặc biệt là dưới k nhỏ), nhưng từ một số giá trị trên - khoảng 0,30 hoặc 0,40 - nó ổn định. Tôi sẽ không suy đoán tại thời điểm này vì lý do có thể của hành vi đó, mặc dù tôi tin rằng "hình sin" bắt nguồn từ bản chất tương quan của phép đo.

Phù hợp bởi PCA vs FA: Kết luận

1

Ảnh hưởng của cấu trúc yếu tố sắc nét đến khả năng phù hợp tổng thể của PCA chỉ rõ ràng miễn là phần còn lại "dân số trừ mẫu được sao chép" được xem xét. Do đó, người ta có thể bỏ lỡ việc nhận ra nó bên ngoài một thiết lập nghiên cứu mô phỏng - trong một nghiên cứu quan sát về một mẫu mà chúng ta không có quyền truy cập vào các phần dư quan trọng này.

Không giống như phân tích nhân tố, PCA là một công cụ ước tính sai lệch (tích cực) về mức độ tương quan dân số (hay hiệp phương sai) cách xa 0. Tuy nhiên, độ lệch của PCA giảm khi số tỷ lệ biến / số yếu tố dự kiến ​​tăng lên. Sự thiên vị cũng giảm khi số lượng các yếu tố trong dân số tăng lên, nhưng xu hướng sau này bị cản trở dưới một cấu trúc yếu tố sắc nét hiện nay.

Tôi sẽ nhận xét rằng PCA phù hợp với độ lệch và ảnh hưởng của cấu trúc sắc nét lên nó cũng có thể được phát hiện khi xem xét phần dư "mẫu trừ đi mẫu được sao chép"; Tôi chỉ đơn giản là bỏ qua hiển thị kết quả như vậy bởi vì chúng dường như không thêm ấn tượng mới.

Tôi rất dự kiến, rộng Lời khuyên cuối cùng của tôi có thể là không sử dụng PCA thay vì FA cho các mục đích phân tích nhân tố điển hình (nghĩa là có 10 hoặc ít hơn trong dân số) trừ khi bạn có các biến số nhiều hơn 10 lần so với các yếu tố. Và càng ít các yếu tố thì nghiêm trọng hơn là tỷ lệ cần thiết. Tôi sẽ tiếp tục không khuyên bạn sử dụng PCA ở vị trí của FA ở tất cả bất cứ khi nào dữ liệu với thiết lập tốt, kết cấu yếu tố sắc nét được phân tích - chẳng hạn như khi phân tích yếu tố được thực hiện để xác nhận được phát triển hoặc đã đưa ra thử nghiệm tâm lý hoặc câu hỏi với các cấu trúc khớp nối / thang . PCA có thể được sử dụng như một công cụ ban đầu, lựa chọn sơ bộ các mặt hàng cho một công cụ đo tâm lý.

Hạn chế của nghiên cứu. 1) Tôi chỉ sử dụng phương pháp PAF trích xuất yếu tố. 2) Cỡ ​​mẫu đã được cố định (200). 3) Dân số bình thường được giả định trong việc lấy mẫu ma trận mẫu. 4) Đối với cấu trúc sắc nét, đã được mô hình hóa số lượng biến bằng nhau cho mỗi yếu tố. 5) Xây dựng hệ số tải nhân tố tôi đã mượn chúng từ phân phối gần như đồng đều (đối với cấu trúc sắc nét - chính thống, tức là đồng phục 3 mảnh). 6) Có thể có sự giám sát trong kỳ thi tức thời này, tất nhiên, như bất cứ nơi nào.


Chú thích . PCA sẽ bắt chước các kết quả của FA và trở thành công cụ tương đương của các mối tương quan khi - như đã nói ở đây1 - các biến lỗi của mô hình, được gọi là các yếu tố duy nhất , trở nên không tương quan. FA tìm kiếm để làm cho họ không tương quan, nhưng PCA không, họ có thể xảy ra được không tương quan trong PCA. Điều kiện chính khi nó có thể xảy ra là khi số lượng biến trên một số yếu tố chung (các thành phần được giữ làm yếu tố chung) là lớn.

Hãy xem xét các bức ảnh sau đây (nếu trước tiên bạn cần học cách hiểu chúng, vui lòng đọc câu trả lời này ):

nhập mô tả hình ảnh ở đây

mUpXp Up-mpXm=1P1p=2X1X2U1U2r=1

X3U

U s sẽ trải rộng không gian 3d. Với 5, 5 đến nhịp 4d, v.v ... Phòng cho nhiều góc đồng thời đạt được gần 90 độ sẽ mở rộng. Điều đó có nghĩa là phòng cho PCA tiếp cận FA trong khả năng phù hợp với các tam giác chéo của ma trận tương quan cũng sẽ mở rộng.

UX

rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
Tôi yêu bản vẽ PCA / FA / CCA của bạn, rất vui +1. Cách suy nghĩ này là thứ mà tôi hoàn toàn không quen, vì vậy nó đòi hỏi một số suy nghĩ để ánh xạ nó đến toán học mà tôi biết ... Tuy nhiên, lưu ý rằng ở đây (cũng như trong câu trả lời FA-vs-PCA nổi tiếng khác của bạn với bản vẽ) bạn chỉ có hai biến. Như tôi đã nói trong câu trả lời của mình, khi chỉ có hai biến, một yếu tố trong FA là đủ để hoàn hảo, 100%, tái tạo hiệp phương sai (vì chỉ có một bậc tự do trong ma trận hiệp phương sai, ngoài đường chéo), nhưng Một PC thường không thể làm điều đó. Vì vậy, không có mâu thuẫn với câu trả lời của tôi.
amip nói rằng Phục hồi lại

Hmm, tôi hy vọng tôi đã không hiểu sai quan điểm sinh sản khác nhau của FA và PCA. Vị trí ở đây là viết tắt của quan điểm của tôi, tôi sẽ đặt nó vào một câu trả lời khác
Gottfried Helms

2
Trả lời bản cập nhật của bạn (đó là câu trả lời của bạn cho bản cập nhật 2 của tôi): Tôi hoàn toàn đồng ý với mọi thứ bạn đã viết ở đây! Tải PCA là xấp xỉ thứ hạng thấp tốt nhất cho toàn bộ ma trận hiệp phương sai (bao gồm cả đường chéo), nhưng không nhất thiết là xấp xỉ thứ hạng thấp tốt nhất cho phần ngoài đường chéo của nó; xấp xỉ sau này được đưa ra bởi phân tích nhân tố. Có vẻ như chúng tôi đã đạt được thỏa thuận chung ở đây; hoặc bạn vẫn cảm thấy rằng một số phần trong câu trả lời của tôi mâu thuẫn với suy nghĩ của bạn?
amip nói rằng Phục hồi lại

1
@ttnphns: Tôi đọc lại cuộc thảo luận của chúng tôi ở trên, và để tôi quay lại một điểm mà tôi đã đưa ra trong câu trả lời ban đầu của mình. PCA cố gắng tìm các tải gần đúng toàn bộ ma trận hiệp phương sai; FA cố gắng tìm các tải gần đúng phần ngoài đường chéo của nó. Nhưng kích thước càng lớn, phần nhỏ hơn của ma trận hiệp phương sai được lấy theo đường chéo của nó, nghĩa là trong kích thước lớn, PCA bắt đầu quan tâm chủ yếu đến phần ngoài đường chéo của nó (vì phần đường chéo trở nên quá nhỏ). Vì vậy, nói chung, kích thước càng lớn, PCA càng trở nên gần gũi với FA. Bạn có đồng ý không?
amip nói rằng Phục hồi lại

1
Cảm ơn các ping, ttnphns. Wow, điều này có vẻ thú vị. Tôi sẽ đọc nó một cách cẩn thận nhưng không phải bây giờ; Tôi có thể phải hoãn lại cho đến tháng một. Tôi sẽ bình luận ở đây một khi tôi đọc nó. Nhân tiện, tôi đã suy nghĩ (ở phía sau đầu) về việc quay lại chủ đề này và chỉnh sửa câu trả lời của tôi một chút để làm cho nó trở nên "hòa giải" hơn. Đây có thể là một cơ hội tốt để làm như vậy (nhưng hãy để tôi đọc những gì bạn viết đầu tiên). С насту ащ!
amip nói rằng Phục hồi lại

4

(Đây thực sự là một nhận xét cho câu trả lời thứ hai của @ ttnphns)
Theo như kiểu tái tạo khác nhau của giả định hiệp phương sai bởi PC và FA có liên quan, tôi chỉ đơn giản là in ra các phần tải / phần tử sai lệch xảy ra trong hai phần trước ; chỉ cho các ví dụ tôi lấy 2 biến.

Chúng tôi giả định việc xây dựng hai hạng mục là một yếu tố chung và các yếu tố cụ thể. Đây là yếu tố-loadingsmatrix:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

Ma trận tương quan bởi đây là

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Nếu chúng ta nhìn vào ma trận tải L_fa và diễn giải nó như bình thường trong FA rằng f2 và f3 là các thuật ngữ lỗi / lỗi vật phẩm, chúng ta sẽ tái tạo C mà không gặp lỗi đó, nhận được

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Vì vậy, chúng tôi đã tái tạo hoàn hảo yếu tố ngoài đường chéo, đó là hiệp phương sai (và đường chéo bị giảm)

Nếu chúng ta nhìn vào giải pháp pca (có thể được thực hiện bằng các phép quay đơn giản), chúng ta sẽ nhận được hai yếu tố từ cùng một ma trận tương quan:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

Giả sử yếu tố thứ hai là lỗi, chúng ta có được ma trận tái tạo hiệp phương sai

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

nơi chúng tôi đã đánh giá quá cao mối tương quan thực sự. Điều này là do chúng tôi bỏ qua hiệp phương sai một phần âm trong hệ số thứ hai = lỗi. Lưu ý rằng PPCA sẽ giống hệt với ví dụ đầu tiên.

Với nhiều mặt hàng, điều này không còn quá rõ ràng nhưng vẫn là một hiệu ứng cố hữu. Do đó, cũng có khái niệm khai thác MinRes (hay -rotation?) Và tôi cũng đã thấy một cái gì đó giống như khai thác xác định tối đa và ...


[cập nhật] Đối với câu hỏi của @amoeba:

Tôi hiểu khái niệm "Số dư tối thiểu" ("MinRes") - xoay vòng như một phương pháp đồng nhất với các phương pháp tính toán CFA trước đó, để đạt được sự tái tạo tốt nhất các yếu tố ngoài đường chéo của ma trận tương quan. Tôi đã học được điều này vào những năm 80/90 và không theo dõi sự phát triển của phân tích nhân tố (độc lập như trước đây trong những năm gần đây), vì vậy có lẽ "MinRes" đã lỗi thời.

Để so sánh nó với giải pháp PCA : người ta có thể nghĩ đến việc tìm giải pháp pc bằng cách xoay các yếu tố khi chúng được coi là trục trong không gian euclide và tải trọng là tọa độ của các vật phẩm trong không gian vectơ đó.
Sau đó, đối với một cặp trục nói x, y tổng bình phương từ các tải của trục x và trục của trục y được tính.
Từ đó, người ta có thể tìm thấy một góc quay, theo đó chúng ta nên xoay, để có được tổng bình phương trong các trục xoay tối đa trên x ° và tối thiểu trên y ° -axis (trong đó vòng tròn litte chỉ ra các trục xoay) .

Làm điều này cho tất cả các cặp trục (trong đó chỉ luôn luôn trục x là bên trái và trục y là bên phải (vì vậy đối với 4 yếu tố chúng ta chỉ có 6 cặp xoay)) và sau đó lặp lại toàn bộ quá trình để có kết quả ổn định nhận ra cái gọi là "phương pháp Jacobi" để tìm ra giải pháp thành phần chính: nó sẽ xác định trục đầu tiên sao cho nó thu được tổng bình phương tối đa có thể có ("SSqL") (cũng có nghĩa là "phương sai ") Trên một trục trong cấu hình tương quan hiện tại.

Theo như tôi hiểu, " MinRes " nên xem xét các mối tương quan một phần thay vì SSqL; do đó, nó không tổng hợp các bình phương của các tải trọng (như được thực hiện trong phép quay Jacobi-pc) nhưng tổng hợp các sản phẩm chéo của các tải trọng trong mỗi yếu tố - ngoại trừ "các sản phẩm chéo" (= bình phương) của các tải trọng của mỗi mục với chính nó.
Sau khi các tiêu chí cho x và cho trục y được tính, nó tiến hành giống như mô tả cho phép quay jacobi lặp.

Do tiêu chí xoay khác với số lượng so với tiêu chí SSqL tối đa, kết quả / vị trí quay sẽ khác với giải pháp PCA. Nếu nó hội tụ, thay vào đó nó sẽ cung cấp tương quan một phần tối đa có thể có trên một trục trong yếu tố đầu tiên, tương quan tối đa tiếp theo trên yếu tố tiếp theo, v.v. Ý tưởng dường như là, sau đó giả định rất nhiều trục / yếu tố sao cho hiệp phương sai một phần còn lại / còn lại trở thành cận biên.

(Lưu ý đây chỉ là cách tôi diễn giải mọi thứ, tôi chưa thấy quy trình đó được viết rõ ràng (hoặc không thể nhớ vào lúc này); một mô tả tại mathworld dường như diễn đạt nó theo nghĩa của các công thức như trong câu trả lời của amip) và là có khả năng có thẩm quyền hơn. Chỉ cần tìm một tài liệu tham khảo khác trong tài liệu dự án R và một tài liệu tham khảo rất có thể trong cuốn sách Gorsuch về phân tích nhân tố, trang 116, có sẵn thông qua google-book )


Bạn có thể giải thích những gì bạn đang đề cập đến trong câu cuối cùng của bạn? Trích xuất "MinRes" hoặc "xác định tối đa" là gì và nó liên quan đến những gì bạn đã viết trước đó như thế nào?
amip nói rằng Phục hồi lại

"MinRes" là một số phương pháp trích xuất hoặc xoay vòng mà tôi đã tìm thấy cách đây nhiều năm hoặc trong các chuyên khảo của S Mulaik hoặc K. Überla về Factoranalysis. Nó tập trung vào việc giảm thiểu các yếu tố ngoại biên còn lại. Bởi vì nó đã được đề cập rõ ràng trong bối cảnh của nhiều phương pháp khác, tôi cho rằng nó hơi khác một chút so với CFA - các triển khai của thời đại đó. Tôi đã cố gắng thực hiện cơ sở lý luận của nó như là một tiêu chí xoay vòng nhưng bằng cách nào đó không có kết quả cuối cùng. Tôi cũng mong đợi rằng "Tối đa hóa yếu tố quyết định" sẽ được biết đến ở đây; Tôi sẽ xem mô tả nào tôi đã nhận được 20 năm trước ...
Gottfried Helms

Ahh, tôi đã có cả hai phần. Một mô tả về tiêu chí xoay vòng cho "minres" -rationale là trên go.helms-net.de/stat/fa/minres.htm . "Yếu tố quyết định tối đa" là mô hình toán học theo phương pháp trích xuất / xoay vòng của một số phóng viên Jeffrey Owen Katz, người đã gọi nó là "oblisim" và có thể được phát triển sau khi chúng tôi trao đổi. Đến lúc đó nó đã qua đầu tôi; dù sao tôi đã cố gắng hiểu phương thức và định dạng và sắp xếp lại nó trong một wordfile. Xem go.helms-net.de/stat/fa/oblisim.zip Google để biết "oblisim" đã đưa ra một mục nhóm tin mà dường như đã giới thiệu nó.
Gottfried Helms

@amoeba: Đây có thể là mục đầu tiên, trong đó Jeff Katz đã giới thiệu bộ phương pháp của mình: mathforum.org/kb/message.jspa?messageID=1516627 Đó là năm 1998, vì vậy suy đoán của tôi khoảng 20 năm trước là hơi thiếu chính xác ...
Gottfried Helms

2

Theo quan điểm của tôi, các khái niệm "PCA" và "FA" ở một khía cạnh khác với các khái niệm "thám hiểm", "xác nhận" hoặc có thể "suy luận". Vì vậy, mỗi trong hai phương pháp toán học / thống kê có thể được áp dụng với một trong ba phương pháp.

Ví dụ, tại sao không có lý do để có một giả thuyết, rằng dữ liệu của tôi có yếu tố chung và cấu trúc của một bộ các thành phần chính (vì thử nghiệm của tôi với bộ máy điện tử của tôi đã cho tôi dữ liệu gần như không có lỗi) và tôi kiểm tra giả thuyết của mình, rằng các giá trị riêng của các yếu tố tiếp theo xảy ra với tỷ lệ 75%? Đây là PCA trong một khung xác nhận.

Mặt khác, có vẻ nực cười là trong nhóm nghiên cứu của chúng tôi, chúng tôi tạo ra rất nhiều pin vật phẩm để đo lường bạo lực giữa các học sinh và giả sử 3 hành vi chính (trầm cảm, trầm cảm, tìm kiếm sự giúp đỡ của chính quyền / phụ huynh) và đặt câu hỏi liên quan trong pin đó ... và "khám phá" tìm ra có bao nhiêu yếu tố chúng ta có ... Thay vào đó, quy mô của chúng ta chứa ba yếu tố dễ nhận biết (bên cạnh các mục có thể bỏ qua và có thể liên quan đến lỗi tương đối). Và sau đó, khi tôi xác nhận, thực sự pin của chúng tôi phục vụ cho ý định, chúng tôi có thể kiểm tra giả thuyết, rằng trong các lớp học của trẻ nhỏ, các yếu tố cho thấy "trợ giúp tìm kiếm của chính quyền" cao hơn hơn học sinh lớn tuổi Hmmm, một lần nữa xác nhận ...

Và thám hiểm? Tôi có một bộ các biện pháp được thực hiện từ một nghiên cứu về vi trùng học từ năm 1960 và họ không có nhiều lý thuyết nhưng đã lấy mẫu mọi thứ họ có thể quản lý vì lĩnh vực nghiên cứu của họ chỉ còn rất trẻ và tôi đã khám phá lại cấu trúc chi phối, ví dụ như) , rằng tất cả các lỗi đều có cùng số lượng do độ chính xác quang học của kính hiển vi được sử dụng (ppca-ansatz như tôi vừa tìm hiểu). Sau đó, tôi sử dụng mô hình thống kê (và sau đó là toán học) cho FA, nhưng trong trường hợp này theo cách thăm dò.

Đây là nó ít nhất là làm thế nào tôi hiểu các điều khoản.
Có lẽ tôi hoàn toàn đi sai đường ở đây, nhưng tôi không cho rằng nó.


Thi thiên Vào những năm 90, tôi đã viết một chương trình tương tác nhỏ để khám phá phương pháp PCA và phân tích nhân tố xuống tận cùng. Nó được viết bằng Turbo-Pascal, vẫn chỉ có thể chạy trong Cửa sổ Dos ("Hộp Dos" trong Win7) nhưng có một sức hấp dẫn thực sự tốt: các yếu tố chuyển đổi tương tác được bao gồm hoặc không, sau đó xoay, tách các lỗi vật phẩm- phương sai (theo tiêu chí của SMC hoặc tiêu chí phương sai bằng nhau (ppca?)), bật và tắt tùy chọn Kaiser, việc sử dụng bật và tắt hiệp phương sai - chỉ tất cả trong khi hệ số tải được hiển thị như trong bảng tính và có thể được quay cho các phương pháp xoay cơ bản khác nhau.
Nó không phải là rất phức tạp: ví dụ, không có kiểm tra số liệu, chỉ nhằm mục đích tự học các cơ học toán học nội bộ. Nó cũng có một "chế độ demo", trong đó chương trình tự chạy, hiển thị các nhận xét giải thích trên màn hình và mô phỏng các đầu vào bàn phím, điều mà người dùng thường làm.
Bất cứ ai quan tâm đến việc tự lập hoặc dạy với nó đều có thể tải xuống từ các trang phần mềm nhỏ của tôi bên trong- (R) .zip Chỉ cần mở rộng các tệp trong zip trong một thư mục mà Dos-Box có thể truy cập và gọi "demoall.bat" phần thứ ba của "bản demo" Tôi đã trình diễn cách mô hình hóa các lỗi cụ thể bằng cách xoay từ một giải pháp pca ban đầu ...


Một cổng R của chương trình của bạn sẽ rất thú vị. Nhân tiện, ngôn ngữ lập trình đầu tiên của tôi (và một trong những mục yêu thích) là [Turbo] Pascal. Tôi thậm chí đã sử dụng nó để viết phần mềm cho công việc văn bằng BS của tôi. Sau đó, một thời gian sau, tôi đã sử dụng Delphi một thời gian, cùng với các ngôn ngữ và hệ thống khác. :-)
Alexanderr Blekh 17/11/14

1
@Aleksandr: Chà, nhập khẩu như vậy chắc chắn sẽ là một ý tưởng hay; tuy nhiên ... trong khi đó tôi nhận được "vé cao cấp" cho hệ thống giao thông địa phương và mặc dù chưa cảm thấy mệt mỏi, tôi hơi mệt mỏi với việc lập trình ... Tôi nghĩ rằng "Delphi" là sự thay thế tự nhiên cho Turbo Pascal ; Tôi đã cải thiện rất nhiều rằng Inside- [r] lên tới máy tính ma trận "MatMate" bằng Delphi 6 trong đó tôi kết hợp Inside- [r] làm công cụ trợ giúp. Tuy nhiên, đôi khi tôi nghĩ rằng, tính năng thực sự tuyệt vời với điểm và nhấp vào Bên trong- [r] cũng nên được nhận ra - bên cạnh bất kỳ tập lệnh phức tạp nào - hoặc thông dịch ngôn ngữ ...
Gottfried Helms

2

Ψ

ΨΨ=0Ψ=σ2IΨ

ΨΨoptΨstdΨstd=α2Dsmcα1α<1 α2ΨstdΨopt
Ψopt


ΨstdΨoptΨ


ΨoptCΨoptCCn×nnn1ΨoptΨWn×kkCWWΨ

ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k

ΨstdCstds>rs+1kΨoptđối với hiệp phương sai, có cấu trúc không tự chế tạo và tất cả các thí nghiệm giả ngẫu nhiên với các ví dụ tự chế tạo ít đáng tin cậy hơn các trường hợp thực nghiệm.
Gottfried Helms

CC=CΨoptCrnkWrC

Thật. Chà, tôi đã nghĩ rằng làm cho nó trở nên rõ ràng nhất trong đó trường hợp "lý tưởng" phải được tìm thấy từ nơi chúng ta giảm đến mức gần đúng tính toán thực tế. <br> Và bây giờ thậm chí còn có lợi hơn cho PCA ;-): Cho phép tương quan giả trong lỗi (ở chế độ thứ hai của ứng dụng / thống kê suy luận) cho phép kết quả trở lại gần với một trong những loại bắt đầu với trích xuất PC ...
Gottfried Helms
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.