Sự khác biệt giữa Phân tích nhân tố và Phân tích thành phần chính là gì?


215

Có vẻ như một số gói thống kê mà tôi sử dụng bọc hai khái niệm này lại với nhau. Tuy nhiên, tôi tự hỏi liệu có những giả định hoặc dữ liệu khác nhau 'chính thức' phải đúng để sử dụng cái này hơn cái kia không. Một ví dụ thực tế sẽ vô cùng hữu ích.


2
Các chương phân tích thành phần chính và các chương phân tích nhân tố trong cuốn sách sau, có sẵn trong hầu hết các thư viện đại học, giải quyết chính xác câu hỏi của bạn: apa.org/pub/books/4316510.aspx
user31256

3
Ngoài các câu trả lời dưới đây, bạn cũng có thể đọc cái nàycái này của tôi.
ttnphns

2
Và một câu hỏi hay khác như "tôi nên sử dụng PCA hay FA": stats.stackexchange.com/q/123063 / 3277 .
ttnphns

3
@ttnphns: Tôi khuyến khích bạn đưa ra câu trả lời trong chủ đề này, có lẽ bao gồm một danh sách chú thích các câu trả lời của bạn trong các chủ đề liên quan khác. Điều này có thể thay thế nhận xét của bạn ở trên (hiện tại bốn bình luận bằng liên kết) và sẽ thực tế hơn, đặc biệt nếu bạn chú thích ngắn gọn từng liên kết. Ví dụ, hãy nhìn vào đây để giải thích về vấn đề này, tìm ở đó để giải thích về vấn đề đó, v.v ... Nó chỉ là một gợi ý, nhưng tôi tin rằng chủ đề này sẽ được hưởng lợi rất nhiều từ nó! Một lợi thế đặc biệt là bạn luôn có thể thêm nhiều liên kết đến câu trả lời đó.
amip

2
Một câu hỏi tương tự đã được hỏi trên MathOverflow và đã nhận được câu hỏi mà tôi sẽ xem là một câu trả lời xuất sắc: mathoverflow.net/questions/40191/ mẹo
Daniel Moskovich

Câu trả lời:


156

Phân tích thành phần chính liên quan đến việc trích xuất các vật liệu tổng hợp tuyến tính của các biến quan sát.

Phân tích nhân tố dựa trên một mô hình chính thức dự đoán các biến quan sát từ các yếu tố tiềm ẩn lý thuyết.

Trong tâm lý học, hai kỹ thuật này thường được áp dụng trong việc xây dựng các bài kiểm tra đa quy mô để xác định vật phẩm nào tải trên thang đo nào. Họ thường đưa ra kết luận thực chất tương tự (để thảo luận, xem Comrey (1988) Phương pháp phân tích nhân tố phát triển quy mô trong tính cách và tâm lý lâm sàng). Điều này giúp giải thích tại sao một số gói thống kê dường như kết hợp chúng lại với nhau. Tôi cũng đã thấy các tình huống trong đó "phân tích thành phần chính" được gắn nhãn "phân tích nhân tố" không chính xác.

Xét về quy tắc đơn giản , tôi đề nghị bạn:

  1. Chạy phân tích nhân tố nếu bạn giả định hoặc muốn kiểm tra một mô hình lý thuyết về các yếu tố tiềm ẩn gây ra các biến quan sát.

  2. Chạy phân tích thành phần chính Nếu bạn muốn đơn giản giảm các biến quan sát tương quan của mình thành một tập hợp nhỏ hơn các biến tổng hợp độc lập quan trọng.


5
Các quy tắc của ngón tay cái có rất hữu ích. Cảm ơn vì điều đó.
Brandon Bertelsen

1
Về quy tắc ngón tay cái (1): Tôi sẽ không kiểm tra mô hình lý thuyết về các yếu tố tiềm ẩn bằng phân tích nhân tố xác nhận chứ không phải là một fa thăm dò?
La Mã

1
@roman Vâng. CFA cung cấp cho bạn quyền kiểm soát mô hình nhiều hơn EFA. Ví dụ, bạn có thể hạn chế tải xuống 0; tải trọng bằng nhau; có dư tương quan; thêm các yếu tố bậc cao hơn; vv
Jeromy Anglim

3
@Jeromy Anglim Có thực sự đúng khi nói PCA tạo ra một "tập hợp nhỏ hơn các biến tổng hợp độc lập quan trọng". Hoặc bạn nên thực sự nói "tập hợp nhỏ hơn các biến tổng hợp không tương quan". Nếu dữ liệu cơ bản đang được sử dụng trong PCA không được phân phối (đa biến) thông thường, dữ liệu chiều giảm sẽ chỉ bị không tương quan?
FXQuantTrader

1
Ngón cái thứ 2 của quy tắc là dễ dàng để có được, nhưng làm thế nào để tôi áp dụng đầu tiên? Âm thanh có thể lạ nhưng khi nào tôi biết tôi muốn chạy mô hình nhân tố chống lại các biến quan sát?
Bến

48

Từ phản hồi của tôi ở đây:

PCA có theo sau một vòng quay (như varimax) vẫn là PCA không?

Phân tích thành phần chính (PCA) và Phân tích nhân tố chung (CFA) là các phương pháp riêng biệt. Thông thường, chúng tạo ra kết quả tương tự và PCA được sử dụng làm phương pháp trích xuất mặc định trong các thói quen Phân tích nhân tố SPSS. Điều này chắc chắn dẫn đến rất nhiều nhầm lẫn về sự khác biệt giữa hai.

Điểm mấu chốt là đây là hai mô hình khác nhau, về mặt khái niệm. Trong PCA, các thành phần là các tổ hợp tuyến tính trực giao thực tế giúp tối đa hóa tổng phương sai. Trong FA, các yếu tố là các kết hợp tuyến tính tối đa hóa phần được chia sẻ của phương sai - cơ bản là "các cấu trúc tiềm ẩn". Đó là lý do tại sao FA thường được gọi là "phân tích nhân tố chung". FA sử dụng nhiều thói quen tối ưu hóa và kết quả, không giống như PCA, phụ thuộc vào thói quen tối ưu hóa được sử dụng và điểm bắt đầu cho các thói quen đó. Đơn giản là không có một giải pháp duy nhất.

Trong R, hàm factanal () cung cấp cho CFA khả năng trích xuất tối đa. Vì vậy, bạn không nên mong đợi nó tái tạo kết quả SPSS dựa trên trích xuất PCA. Nó đơn giản không phải là cùng một mô hình hoặc logic. Tôi không chắc liệu bạn có nhận được kết quả tương tự hay không nếu bạn đã sử dụng trích xuất Khả năng tối đa của SPSS vì chúng có thể không sử dụng cùng một thuật toán.

Tuy nhiên, để tốt hơn hoặc tồi tệ hơn trong R, bạn có thể sao chép "phân tích nhân tố" hỗn hợp mà SPSS cung cấp làm mặc định. Đây là quy trình trong R. Với mã này, tôi có thể sao chép kết quả "Phân tích nhân tố" của SPSS bằng cách sử dụng bộ dữ liệu này. (Ngoại trừ dấu hiệu không xác định). Kết quả đó sau đó cũng có thể được xoay bằng bất kỳ phương pháp xoay có sẵn nào của R.

data(attitude)
# Compute eigenvalues and eigenvectors of the correlation matrix.
pfa.eigen <- eigen(cor(attitude))
# Print and note that eigenvalues are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigenvalues > 1 = 2.
pfa.eigen$values
# Set a value for the number of factors (for clarity)
kFactors <- 2
# Extract and transform two components.
pfa.eigen$vectors[, seq_len(kFactors)]  %*% 
  diag(sqrt(pfa.eigen$values[seq_len(kFactors)]), kFactors, kFactors)

5
Lưu ý rằng bạn sẽ nhận được kết quả tương tự với principal(attitude, 2, rotate="none")từ psychgói và quy tắc Kayser của (ev> 1) không phải là cách đề nghị nhất để kiểm tra chiều (nó overestimates số yếu tố).
chl

5
Vâng, tôi biết hiệu trưởng tâm lý kết thúc điều này. Mục đích của tôi là chỉ ra "phân tích nhân tố" SPSS đang làm gì khi sử dụng phương pháp trích xuất thành phần chính. Tôi đồng ý rằng quy tắc eigenvalue là một cách kém để chọn số lượng các yếu tố. Nhưng, đó chính xác là những gì SPSS làm theo mặc định và đây là những gì tôi đã chứng minh.
Brett

1
factanal()cung cấp EFA chứ không phải CFA. Ngoài ra, từ kinh nghiệm của tôi, trích xuất Khả năng tối đa của SPSS sẽ cho kết quả tương tự như khi factanal()không có xoay xiên.
pe-pe-rry

2
Điều này có nghĩa gì sau đây: 'Trong FA, các yếu tố là các kết hợp tuyến tính tối đa hóa phần được chia sẻ của phương sai - "các cấu trúc tiềm ẩn" bên dưới. '?
phỏng đoán

Cũng lưu ý rằng CFA có thể là viết tắt của FA xác nhận (trái ngược với FA giải thích ) thay vì FA thông thường .
Richard Hardy

33

Bạn nói đúng về điểm đầu tiên của mình, mặc dù trong FA bạn thường làm việc với cả hai (tính độc đáo và tính cộng đồng). Sự lựa chọn giữa PCA và FA là một cuộc tranh luận lâu dài giữa các nhà tâm lý học. Tôi không hoàn toàn làm theo quan điểm của bạn, mặc dù. Xoay trục chính có thể được áp dụng bất cứ phương pháp nào được sử dụng để xây dựng các yếu tố tiềm ẩn. Trên thực tế, hầu hết các lần này là xoay VARIMAX (xoay trực giao, xem xét các yếu tố không tương quan) được sử dụng, vì lý do thực tế (giải thích dễ nhất, quy tắc ghi điểm dễ nhất hoặc giải thích điểm yếu tố, v.v.), mặc dù xoay xiên (ví dụ: KHUYẾN MÃI ) có thể phản ánh tốt hơn thực tế (các cấu trúc tiềm ẩn thường tương quan với nhau), ít nhất là trong truyền thống của FA nơi bạn cho rằng một cấu trúc tiềm ẩn thực sự là trung tâm của mối tương quan quan sát giữa các biến của bạn. Vấn đề là PCA theo sau vòng xoay VARIMAX phần nào làm sai lệch cách giải thích các tổ hợp tuyến tính của các biến ban đầu trong truyền thống "phân tích dữ liệu" (xem công việc của Michel Tenenhaus). Từ góc độ tâm lý học, các mô hình FA sẽ được ưu tiên hơn vì chúng giải thích rõ ràng các lỗi đo lường, trong khi PCA không quan tâm đến điều đó. Nói ngắn gọn, sử dụng PCA, bạn biểu thị từng thành phần (yếu tố) dưới dạng kết hợp tuyến tính của các biến, trong khi đó trong FA là các biến được biểu thị dưới dạng kết hợp tuyến tính của các yếu tố (bao gồm cả các thành phần chung và duy nhất, như bạn đã nói). Vấn đề là PCA theo sau vòng xoay VARIMAX phần nào làm sai lệch cách giải thích các tổ hợp tuyến tính của các biến ban đầu trong truyền thống "phân tích dữ liệu" (xem công việc của Michel Tenenhaus). Từ góc độ tâm lý học, các mô hình FA sẽ được ưu tiên hơn vì chúng giải thích rõ ràng các lỗi đo lường, trong khi PCA không quan tâm đến điều đó. Nói ngắn gọn, sử dụng PCA, bạn biểu thị từng thành phần (yếu tố) dưới dạng kết hợp tuyến tính của các biến, trong khi đó trong FA là các biến được biểu thị dưới dạng kết hợp tuyến tính của các yếu tố (bao gồm cả các thành phần chung và duy nhất, như bạn đã nói). Vấn đề là PCA theo sau vòng xoay VARIMAX phần nào làm sai lệch cách giải thích các tổ hợp tuyến tính của các biến ban đầu trong truyền thống "phân tích dữ liệu" (xem công việc của Michel Tenenhaus). Từ góc độ tâm lý học, các mô hình FA sẽ được ưu tiên hơn vì chúng giải thích rõ ràng các lỗi đo lường, trong khi PCA không quan tâm đến điều đó. Nói ngắn gọn, sử dụng PCA, bạn biểu thị từng thành phần (yếu tố) dưới dạng kết hợp tuyến tính của các biến, trong khi đó trong FA là các biến được biểu thị dưới dạng kết hợp tuyến tính của các yếu tố (bao gồm cả các thành phần chung và duy nhất, như bạn đã nói). Các mô hình FA sẽ được ưu tiên vì chúng giải thích rõ ràng các lỗi đo lường, trong khi PCA không quan tâm đến điều đó. Nói ngắn gọn, sử dụng PCA, bạn biểu thị từng thành phần (yếu tố) dưới dạng kết hợp tuyến tính của các biến, trong khi đó trong FA là các biến được biểu thị dưới dạng kết hợp tuyến tính của các yếu tố (bao gồm cả các thành phần chung và duy nhất, như bạn đã nói). Các mô hình FA sẽ được ưu tiên hơn vì chúng giải thích rõ ràng các lỗi đo lường, trong khi PCA không quan tâm đến điều đó. Nói ngắn gọn, sử dụng PCA, bạn đang biểu thị từng thành phần (yếu tố) dưới dạng kết hợp tuyến tính của các biến, trong khi ở FA, đây là các biến được biểu thị dưới dạng kết hợp tuyến tính của các yếu tố (bao gồm cả thành phần và tính duy nhất, như bạn đã nói).

Tôi khuyên bạn nên đọc các cuộc thảo luận sau đây về chủ đề này:


7
Chỉ cần nói rằng câu trả lời của tôi thực sự có thể hơi lạc đề một chút vì câu hỏi này đã được hợp nhất với một câu hỏi khác, stats.stackexchange.com/questions / 3869 / (Tôi ban đầu trả lời câu hỏi sau).
chl

6
À, tôi đã tự hỏi tại sao bạn lại liên kết với nhiệm vụ này, trong câu hỏi này ... :)
Brandon Bertelsen

1
PCA followed by VARIMAX rotation somewhat distorts the interpretation of the linear combinations of the original variables in the "data analysis" tradition. Chl, bạn có thể giải thích nó? Nó thật thú vị.
ttnphns

32

Có rất nhiều định nghĩa được đề xuất trên web. Đây là một từ một thuật ngữ trực tuyến về học thống kê :

Phân tích thành phần chính

Xây dựng các tính năng mới là thành phần chính của tập dữ liệu. Các thành phần chính là các biến ngẫu nhiên của phương sai cực đại được xây dựng từ các tổ hợp tuyến tính của các tính năng đầu vào. Tương tự, chúng là các hình chiếu lên các trục thành phần chính, là các đường thu nhỏ khoảng cách bình phương trung bình đến từng điểm trong tập dữ liệu. Để đảm bảo tính duy nhất, tất cả các trục thành phần chính phải trực giao. PCA là một kỹ thuật có khả năng tối đa cho hồi quy tuyến tính với sự hiện diện của nhiễu Gaussian trên cả đầu vào và đầu ra. Trong một số trường hợp, PCA tương ứng với biến đổi Fourier, chẳng hạn như DCT được sử dụng trong nén ảnh JPEG. Xem "Eigenfaces for Recognition" (Turk & Pentland, J Cognitive Neuroscience 3 (1), 1991), Giám mục, "

Phân tích nhân tố

Một khái quát về PCA dựa trên khả năng tối đa. Giống như PCA, mỗi điểm dữ liệu được giả định phát sinh từ việc lấy mẫu một điểm trong không gian con và sau đó làm nhiễu nó với nhiễu Gaussian toàn chiều. Sự khác biệt là phân tích nhân tố cho phép nhiễu có ma trận hiệp phương sai đường chéo tùy ý, trong khi PCA giả định nhiễu là hình cầu. Ngoài việc ước tính không gian con, phân tích nhân tố còn ước tính ma trận hiệp phương sai. Xem "Thuật toán EM cho hỗn hợp các máy phân tích nhân tố" .chỉ số về chiều cho PCA ".


2
Mô tả Phân tích nhân tố lấy điểm chính (hiệp phương sai), nhưng trong lịch sử không được phát triển như một khái quát của PCA.
phỏng đoán

1
Vậy về cơ bản, trong PCA, một svd là ma trận hiệp phương sai và trong FA ma trận tương quan? Tôi luôn gặp khó khăn trong việc tìm ra toán học thực tế sau khi các phương pháp đã xây dựng rất nhiều thuật ngữ từ lĩnh vực mà chúng được áp dụng. (ngoài chủ đề: tôi đã mất cả buổi chiều để hiểu mô hình đường dẫn là gì cho đến khi tôi tìm thấy một (1) bài báo từ những năm 70 đã nêu phương trình ma trận đằng sau nó.)
Mark van der Loo

28

Câu trả lời hàng đầu trong chủ đề này cho thấy PCA là một kỹ thuật giảm kích thước, trong khi FA là một kỹ thuật biến tiềm ẩn. Đây là Sensuricto đúng. Nhưng nhiều câu trả lời ở đây và nhiều phương pháp điều trị ở nơi khác trình bày PCA và FA là hai phương pháp hoàn toàn khác nhau, không giống nhau nếu không trái ngược với mục tiêu, phương pháp và kết quả. Tôi không đồng ý; Tôi tin rằng khi PCA được coi là một kỹ thuật biến tiềm ẩn, nó khá gần với FA và tốt hơn hết chúng nên được xem là các phương pháp rất giống nhau.

Tôi đã cung cấp tài khoản của riêng tôi về những điểm tương đồng và khác biệt giữa PCA và FA trong chuỗi sau: Có lý do chính đáng nào để sử dụng PCA thay vì EFA không? Ngoài ra, PCA có thể thay thế cho phân tích nhân tố không?Ở đó tôi lập luận rằng vì những lý do toán học đơn giản, kết quả của PCA và FA có thể được dự kiến ​​là khá giống nhau, chỉ có điều là số lượng biến không nhỏ lắm (có lẽ hơn một chục). Xem câu trả lời [dài!] Của tôi trong chuỗi liên kết để biết chi tiết toán học và mô phỏng Monte Carlo. Đối với phiên bản ngắn gọn hơn nhiều của đối số của tôi, hãy xem ở đây: Trong điều kiện nào, PCA và FA mang lại kết quả tương tự?

Ở đây tôi muốn chỉ ra nó trên một ví dụ. Tôi sẽ phân tích bộ dữ liệu rượu vang từ Kho lưu trữ học máy của UCI. Nó là một bộ dữ liệu khá nổi tiếng với rượu vang từ ba loại nho khác nhau được mô tả bởi p = 13 biến. Đây là cách ma trận tương quan trông như thế nào: viết sai rồi= =178p= =13

Ma trận tương quan của bộ dữ liệu rượu vang

Tôi đã chạy cả phân tích PCA và FA và hiển thị các phép chiếu 2D của dữ liệu dưới dạng biplots cho cả hai trên hình bên dưới (PCA bên trái, FA bên phải). Trục ngang và trục dọc hiển thị điểm thành phần / yếu tố thứ 1 và thứ 2. Mỗi trong số chấm tương ứng với một loại rượu và các chấm được tô màu theo nhóm (xem chú thích):viết sai rồi= =178

Phân tích PCA và FA của bộ dữ liệu rượu vang

p= =131331 ).

Lưu ý rằng hầu như không có sự khác biệt giữa PCA và FA! Có những sai lệch nhỏ ở đây và đó, nhưng bức tranh chung gần như giống hệt nhau, và tất cả các tải đều rất giống nhau và chỉ theo cùng một hướng. Đây chính xác là những gì được mong đợi từ lý thuyết và không có gì ngạc nhiên; Tuy nhiên, nó là hướng dẫn để quan sát.

Tái bút Đối với một bộ ba PCA đẹp hơn của cùng một bộ dữ liệu, hãy xem câu trả lời này của @vqv .

PPS. Trong khi tính toán PCA là tiêu chuẩn, tính toán FA có thể yêu cầu nhận xét. Tải các yếu tố được tính toán bằng thuật toán "các yếu tố chính được lặp lại" cho đến khi hội tụ (9 lần lặp), với các cộng đồng được khởi tạo với các tương quan một phần. Khi các tải được hội tụ, điểm số được tính bằng phương pháp của Bartlett. Điều này mang lại điểm số tiêu chuẩn hóa; Tôi đã tăng chúng lên theo phương sai nhân tố tương ứng (được cho bởi độ dài tải).


1
Phần mềm nào bạn đã sử dụng để tạo PCA và các ô phân tích nhân tố?
rnso

1
Tôi đã sử dụng Matlab. Tôi đã nghĩ đến việc dán mã vào câu trả lời của mình (như thường lệ là thói quen của tôi), nhưng không muốn làm lộn xộn chủ đề bận rộn này hơn nữa. Nhưng khi nghĩ về nó, tôi nên đăng nó trên một số trang web bên ngoài và để lại một liên kết ở đây. Tôi sẽ làm điều đó.
amip

2
Đúng là PCA và FA đôi khi và hoàn toàn không hiếm khi cho kết quả tương tự (tải), và vì vậy PCA có thể được xem là trường hợp cụ thể của FA, khi phân tích nhân tố được định nghĩa rộng. Vẫn FA (Sensuricto) và PCA về mặt lý thuyết khá khác nhau.
ttnphns

2
(tt) Các yếu tố là những đặc điểm tiềm ẩn siêu việt; pr. các thành phần là dẫn xuất vô thường. Mặc dù hai lô tải của bạn có vẻ giống nhau trên thực tế, về mặt lý thuyết chúng khác nhau về cơ bản. Mặt phẳng thành phần bên trái được tạo ra như một không gian con của các biến tự chiếu vào nó. Mặt phẳng nhân tố được tạo ra như một không gian khác với không gian của các biến và do đó chúng tự chiếu lên một không gian "ngoài hành tinh" trên ô bên phải.
ttnphns

3
(tt) Nhưng pic bên phải (FA) thực sự không phải là một biplot thực sự , nó là một lớp phủ của hai biểu đồ phân tán khác nhau, các không gian khác nhau: biểu đồ tải (trong đó các trục là các yếu tố thực) và đối tượng ghi điểm (trong đó các trục là các yếu tố ước tính như điểm số). Không gian yếu tố thực sự vượt qua không gian biến "cha mẹ" nhưng không gian điểm yếu tố là không gian con của nó. Bạn chồng hai cặp trục không đồng nhất, nhưng chúng có cùng nhãn ("yếu tố 1" và "yếu tố 2" trong cả hai cặp), tình huống này gây hiểu lầm mạnh mẽ và thuyết phục chúng tôi nghĩ rằng đó là một phép chia đôi , giống như bên trái.
ttnphns

25

Một giải thích cơ bản, nhưng là một cách giải thích, phân tích PCA vs Factor với sự trợ giúp của các biểu đồ phân tán, trong các bước hợp lý. (Tôi cảm ơn @amoeba, người, trong bình luận của anh ấy cho câu hỏi, đã khuyến khích tôi đăng câu trả lời thay cho việc tạo liên kết đến nơi khác. Vì vậy, đây là một phản hồi, giải trí muộn.)

PCA dưới dạng tóm tắt biến (trích xuất tính năng)

Hy vọng bạn đã hiểu về PCA. Để hồi sinh ngay bây giờ.

nhập mô tả hình ảnh ở đây

V1V2a

P1=a11V1+a12V2

P2=a21V1+a22V2

Các hệ số này là cosin của phép quay (= cosin hướng, hướng chính) và bao gồm cái được gọi là hàm riêng, trong khi giá trị riêng của ma trận hiệp phương sai là phương sai thành phần chính. Trong PCA, chúng tôi thường loại bỏ các thành phần yếu cuối cùng: do đó chúng tôi tóm tắt dữ liệu bằng một vài thành phần được trích xuất đầu tiên, với ít mất thông tin.

Covariances
        V1       V2 
V1  1.07652   .73915 
V2   .73915   .95534 

----PCA---- 
Eigenvalues      % 
P1  1.75756   86.500 
P2   .27430   13.500 

Eigenvectors
        P1       P2
V1   .73543  -.67761 
V2   .67761   .73543

Với dữ liệu âm mưu của chúng tôi, các giá trị thành phần P1 (điểm số) P1 = .73543*V1 + .67761*V2và thành phần P2 chúng tôi loại bỏ. Phương sai của P1 là 1.75756, giá trị riêng thứ nhất của ma trận hiệp phương sai, và do đó, P1 giải thích 86.5%về tổng phương sai tương đương (1.07652+.95534) = (1.75756+.27430).

PCA là dự đoán biến (tính năng "tiềm ẩn")

P1 V1V2

V1=a11P1+E1

V2=a12P1+E2

aE

nhập mô tả hình ảnh ở đây

V1^=a11P1V2^=a12P1E1=V1V1^E2=V2V2^

Bây giờ, đặc điểm của PCA là nếu chúng ta tính toán E1 và E2 cho mọi điểm trong dữ liệu và vẽ các tọa độ này - tức là chỉ phân tán các lỗi, "dữ liệu lỗi" của đám mây sẽ trùng với thành phần P2 bị loại bỏ. Và nó cũng vậy: đám mây được vẽ trên cùng một bức tranh với đám mây màu be - và bạn thấy nó thực sự tạo thành trục P2 (của Hình 1 ) như được lát với điểm thành phần P2.

Không có thắc mắc, bạn có thể nói. Rõ ràng là: trong PCA , (các) thành phần cơ sở bị loại bỏ là những gì phân tách chính xác trong các lỗi dự đoán E, trong mô hình giải thích (khôi phục) các biến ban đầu V bằng (các) tính năng tiềm ẩn P1. Các lỗi E cùng nhau chỉ tạo thành (các) thành phần bên trái. Đây là nơi phân tích nhân tố bắt đầu khác với PCA.

Ý tưởng về FA chung (tính năng tiềm ẩn)

Chính thức, mô hình dự đoán các biến số biểu hiện bằng (các) tính năng tiềm ẩn được trích xuất là giống nhau trong FA như trong PCA; [ Phương trình 3 ]:

V1=a1F+E1

V2=a2F+E2

Trong đó F là yếu tố phổ biến tiềm ẩn được trích xuất từ ​​dữ liệu và thay thế cho P1 trong Eq.2 . Sự khác biệt trong mô hình là trong FA, không giống như PCA, các biến lỗi (E1 và E2) được yêu cầu không tương quan với nhau .

aaaaaaa

OK, trở lại chủ đề. E1 và E2 không tương quan trong phân tích nhân tố; do đó, chúng nên tạo thành một đám mây lỗi hoặc tròn hoặc elip nhưng không được định hướng theo đường chéo. Trong khi ở PCA, đám mây của họ hình thành đường thẳng trùng với đường chéo P2. Cả hai ý tưởng đều được thể hiện trên pic:

nhập mô tả hình ảnh ở đây

Lưu ý rằng các lỗi là đám mây tròn (không kéo dài theo đường chéo) trong FA. Yếu tố (tiềm ẩn) trong FA được định hướng hơi khác nhau, nghĩa là nó không đúng với thành phần chính đầu tiên là "tiềm ẩn" trong PCA. Trên pic, dòng yếu tố hình nón kỳ lạ một chút - nó sẽ trở nên rõ ràng tại sao cuối cùng.

Ý nghĩa của sự khác biệt này giữa PCA và FA là gì? Các biến tương quan, được nhìn thấy trong hình dạng elip theo đường chéo của đám mây dữ liệu. P1 đã bỏ qua phương sai tối đa, do đó, hình elip được đồng hướng đến P1. Do đó, P1 tự giải thích mối tương quan; nhưng nó không giải thích được lượng tương quan hiện có đầy đủ; nó nhìn để giải thích sự thay đổi trong các điểm dữ liệu, không tương quan. Trên thực tế, nó chiếm quá nhiều cho mối tương quan, kết quả của nó là sự xuất hiện của đám mây lỗi chéo, tương quan bù cho tài khoản quá mức. Chỉ riêng P1 không thể giải thích được sức mạnh của sự tương quan / cộng hưởng một cách toàn diện. Yếu tố F có thểlam no một Minh; và điều kiện khi nó trở nên có thể thực hiện được chính xác là nơi các lỗi có thể bị buộc phải không được sửa chữa. Vì đám mây lỗi tròn không có mối tương quan - tích cực hay tiêu cực - vẫn còn sau khi yếu tố được trích xuất, do đó nó là yếu tố lướt qua tất cả.

Khi giảm kích thước, PCA giải thích phương sai nhưng giải thích không chính xác các mối tương quan. FA giải thích các mối tương quan nhưng không thể giải thích (bằng các yếu tố phổ biến) càng nhiều biến thể dữ liệu càng tốt. (Các) yếu tố trong FA chiếm phần biến thiên đó là phần tương quan ròng, được gọi là cộng đồng ; và do đó, các yếu tố có thể được hiểu là các lực lượng / tính năng / đặc điểm thực sự nhưng không thể quan sát được mà ẩn "trong" hoặc "đằng sau" các biến đầu vào để đưa chúng vào tương quan. Bởi vì họ giải thích tương quan tốt về mặt toán học. Các thành phần chính (một vài cái đầu tiên) giải thích nó không tốt về mặt toán học và do đó có thể được gọi là "đặc điểm tiềm ẩn" (hoặc như vậy) chỉ ở một số đoạn và tạm thời .

Phép nhân tải là những gì giải thích (khôi phục) tương quan, hoặc tương quan dưới dạng hiệp phương sai - nếu phân tích dựa trên ma trận hiệp phương sai (như trong ví dụ) chứ không phải ma trận tương quan. Phân tích nhân tố mà tôi đã làm với dữ liệu mang lại a_1=.87352, a_2=.84528, vì vậy sản phẩm a_1*a_2 = .73837gần như bằng hiệp phương sai .73915. Mặt khác, tải PCA là a1_1=.97497, a1_2=.89832, vì vậy a1_1*a1_2 = .87584đánh giá quá cao .73915đáng kể.

Đã giải thích sự khác biệt lý thuyết chính giữa PCA và FA, chúng ta hãy quay lại dữ liệu của chúng tôi để minh họa ý tưởng.

FA: giải pháp gần đúng (điểm yếu tố)

Dưới đây là biểu đồ phân tán hiển thị kết quả phân tích mà chúng tôi tạm gọi là "phân tích nhân tố phụ tối ưu", Hình 3 .

A technical detail (you may skip): PAF method used for factor extraction.
Factor scores computed by Regression method.
Variance of the factor scores on the plot was scaled to the true
factor variance (sum of squared loadings).

nhập mô tả hình ảnh ở đây

Xem khởi hành từ Hình 2 của PCA. Đám mây màu be của các lỗi không tròn, nó là hình elip theo đường chéo, nhưng rõ ràng nó béo hơn nhiều so với đường chéo mỏng đã xảy ra trong PCA. Cũng lưu ý rằng các đầu nối lỗi (hiển thị cho một số điểm) không còn song song nữa (trong PCA, theo định nghĩa song song với P2). Ngoài ra, nếu bạn nhìn, ví dụ, tại các điểm "F" và "E" nằm đối xứng với trục F của yếu tố , bạn sẽ thấy, bất ngờ, điểm yếu tố tương ứng của chúng có giá trị khá khác nhau. Nói cách khác, điểm yếu tố không chỉ là điểm thành phần chính được biến đổi tuyến tính: yếu tố F được tìm thấy theo cách riêng của nó khác với cách P1. Và các trục của chúng không hoàn toàn trùng khớp nếu được hiển thị cùng nhau trên cùng một âm mưu Hình.4 :

nhập mô tả hình ảnh ở đây

Ngoài ra, chúng là một nguồn gốc khác nhau một chút, F (như được xếp theo điểm số) ngắn hơn, nghĩa là nó chiếm phương sai nhỏ hơn so với tài khoản P1. Như đã lưu ý trước đó, yếu tố chỉ tính đến sự thay đổi chịu trách nhiệm cho sự tương quan của V1 V2, tức là phần của tổng phương sai đủ để đưa các biến từ hiệp phương sai nguyên thủy 0sang hiệp phương sai thực tế .73915.

FA: giải pháp tối ưu (yếu tố thực sự)

Một giải pháp cho yếu tố tối ưu là khi các lỗi là đám mây hình elip tròn hoặc không chéo: E1 và E2 hoàn toàn không tương thích . Phân tích nhân tố thực sự trả về một giải pháp tối ưu như vậy. Tôi đã không hiển thị nó trên một biểu đồ phân tán đơn giản như những người ở trên. Tại sao tôi - vì nó sẽ là điều thú vị nhất, sau tất cả.

Lý do là không thể hiển thị trên một biểu đồ phân tán đủ, thậm chí áp dụng cốt truyện 3D. Đó là một điểm khá thú vị về mặt lý thuyết. Để làm cho E1 và E2 hoàn toàn không tương quan, có vẻ như tất cả ba biến này, F, E1, E2 phải nằm trong không gian (mặt phẳng) được xác định bởi V1, V2; và ba phải không tương quan với nhau . Tôi tin rằng có thể vẽ một biểu đồ phân tán như vậy trong 5D (và có thể với một số mánh lới quảng cáo - trong 4D), nhưng chúng ta sống trong thế giới 3D, than ôi. Yếu tố F phải được tương quan với cả E1 và E2 (trong khi cả hai đều không tương thích) vì F được coi là nguồn duy nhất (sạch) và hoàn toàn tương quan trong dữ liệu được quan sát. Phân tích nhân tố chia nhỏ tổng phương sai củapcác biến đầu vào thành hai phần không tương quan (không chồng chéo): -dimensional, trong đó lỗi, còn được gọi là các yếu tố duy nhất, không tương thích lẫn nhau).phần cộng đồng ( m-dimensional, nơi mquy tắc các yếu tố chung) và phần duy nhất (p

Vì vậy, xin lỗi vì không hiển thị yếu tố thực sự của dữ liệu của chúng tôi trên một biểu đồ phân tán ở đây. Nó có thể được hình dung khá đầy đủ thông qua các vectơ trong "không gian chủ đề" như được thực hiện ở đây mà không hiển thị các điểm dữ liệu.

Ở trên, trong phần "Ý tưởng về FA chung (tính năng tiềm ẩn)" Tôi đã hiển thị yếu tố (trục F) dưới dạng nêm để cảnh báo rằng trục yếu tố thực sự không nằm trên mặt phẳng V1 V2. Điều đó có nghĩa là - trái ngược với thành phần chính P1 - yếu tố F là trục không phải là trục quay của trục V1 hoặc V2 trong không gian của chúng và F là biến không phải là sự kết hợp tuyến tính của các biến V1 và V2. Do đó, F được mô hình hóa (trích từ các biến V1 v2) như thể một biến độc lập, bên ngoài, không phải là một dẫn xuất của chúng. Các phương trình như Eq.1 từ nơi PCA bắt đầu, không thể áp dụng để tính hệ số thực (tối ưu) trong phân tích nhân tố, trong khi các phương trình đẳng cấu chính thức Eq.2Eq.3có giá trị cho cả hai phân tích. Đó là, trong các biến PCA tạo ra các thành phần và các thành phần dự đoán lại các biến; trong (các) yếu tố FA tạo / dự đoán các biến và không quay lại - mô hình nhân tố chung về mặt khái niệm giả định như vậy , mặc dù các yếu tố kỹ thuật được trích xuất từ ​​các biến quan sát.

Không chỉ đúng yếu tố không phải là một chức năng của các biến manifest, đúng yếu tố của giá trị được không được định nghĩa duy nhất . Nói cách khác, chúng chỉ đơn giản là không biết. Tất cả là do thực tế là chúng ta đang ở trong không gian phân tích 5D quá mức chứ không phải trong không gian dữ liệu 2D tại nhà của chúng ta. Chỉ có các xấp xỉ tốt (một số phương thức tồn tại ) với các giá trị yếu tố thực, được gọi là điểm yếu tố , là có sẵn cho chúng tôi. Điểm yếu tố nằm trong mặt phẳng V1 V2, giống như điểm thành phần chính, chúng được tính là các hàm tuyến tính của V1, V2, và đó là chúngmà tôi đã vẽ trong phần "FA: giải pháp gần đúng (điểm yếu tố)". Điểm thành phần chính là giá trị thành phần thực sự; điểm yếu tố chỉ là xấp xỉ hợp lý với các giá trị yếu tố thực không xác định.

FA: làm tròn thủ tục

a

Do đó, "giải pháp nhân tố" được tôi hiển thị trong phần "FA: giải pháp gần đúng (điểm yếu tố)" thực sự dựa trên tải tối ưu, tức là dựa trên các yếu tố thực. Nhưng điểm số không tối ưu, theo định mệnh. Điểm số được tính là một hàm tuyến tính của các biến quan sát, giống như điểm thành phần, vì vậy cả hai đều có thể được so sánh trên một biểu đồ phân tán và tôi đã thực hiện nó theo đuổi mô phạm để thể hiện giống như một ý tưởng dần dần từ ý tưởng PCA đối với ý tưởng FA.

Người ta phải cảnh giác khi vẽ các tải nhân tố biplot giống nhau với điểm yếu tố trong "không gian của các yếu tố", hãy lưu ý rằng các tải liên quan đến các yếu tố thực trong khi điểm liên quan đến các yếu tố thay thế (xem nhận xét của tôi về câu trả lời này trong luồng này).

Xoay các yếu tố (tải) giúp diễn giải các tính năng tiềm ẩn. Xoay vòng tải cũng có thể được thực hiện trong PCA nếu bạn sử dụng PCA như phân tích nhân tố (nghĩa là xem PCA là dự đoán biến). PCA có xu hướng hội tụ kết quả với FA khi số lượng biến tăng lên (xem chủ đề cực kỳ phong phú về sự tương đồng và khái niệm thực tế và khái niệm giữa hai phương pháp). Xem danh sách của tôi về sự khác biệt giữa PCA và FA ở cuối câu trả lời này . Từng bước tính toán của PCA so với FA trên tập dữ liệu iris được tìm thấy ở đây . Có một số lượng đáng kể các liên kết tốt đến câu trả lời của những người tham gia khác về chủ đề ngoài chủ đề này; Tôi xin lỗi tôi chỉ sử dụng một vài trong số họ trong câu trả lời hiện tại.

Xem thêm một danh sách đạn về sự khác biệt giữa PCA và FA tại đây .


1
+1. Thật tuyệt khi bạn đã viết nó lên, chủ đề này chắc chắn thiếu một câu trả lời từ bạn. Tôi đã nâng cao trước khi đọc (điều mà tôi hiếm khi làm), và chắc chắn rất thích đọc tiếp theo. Tôi có thể bình luận nhiều hơn sau, nhưng bây giờ có một câu chuyện nhỏ: bạn đã viết nhiều lần rằng trong FA, đám mây lỗi sẽ là "tròn". Nhưng trên thực tế, nó cũng có thể là hình elip (vì tính duy nhất cho V1 và V2 có thể có các phương sai khác nhau), nên nó chỉ có tương quan bằng không. Tôi đoán bạn không muốn gây nhầm lẫn cho độc giả với chi tiết này.
amip

1
V1=a1F+E1V2=a2F+E2(E1,E2)=N(0,I)- Bây giờ sử dụng các mối quan hệ này để tạo các mẫu của V1 và V2. Khi V1 và V2 được tạo, nếu chúng ta thực hiện FA tối ưu, chúng ta sẽ lấy lại các ước tính gần như chính xác của (E1, E2) và nó sẽ tạo thành một đám mây hình elip. Hơn nữa, bây giờ F, E1, E2 có thể được biểu diễn trong cùng mặt phẳng với V1 và V2.
kasa

@kasa, bình luận của bạn ca ngợi câu trả lời của tôi hay bình luận của amip? Nếu nhận xét của bạn chống lại tuyên bố chính của tôi rằng trong FA, ba biến tiềm ẩn không nằm trong không gian ban đầu và bạn có thể hiển thị nó, tại sao không đưa ra câu trả lời hiển thị? Nhưng xin lưu ý rằng trong FA tối ưu, các lỗi chính xác không được sửa chữa, không phải là chúng có thể được tưởng tượng là đến từ dân số không tương quan bình thường.
ttnphns

@ttnphns: Xin lỗi vì sự nhầm lẫn, tôi đã nghi ngờ yêu cầu chính của bạn. Tôi sẽ cố gắng thể hiện nó như một câu trả lời trong một vài ngày. Cảm ơn!
kasa

21

Sự khác biệt giữa phân tích nhân tố và phân tích thành phần chính là:

• Trong phân tích nhân tố có một mô hình có cấu trúc và một số giả định. Về mặt này, đây là một kỹ thuật thống kê không áp dụng cho phân tích thành phần chính, đây là một phép biến đổi thuần túy toán học.

• Mục đích của phân tích thành phần chính là giải thích phương sai trong khi phân tích nhân tố giải thích hiệp phương sai giữa các biến.

Một trong những lý do lớn nhất cho sự nhầm lẫn giữa hai điều này có liên quan đến thực tế là một trong những phương pháp trích xuất nhân tố trong Phân tích nhân tố được gọi là "phương pháp của các thành phần chính". Tuy nhiên, đó là một điều để sử dụng PCA và một điều khác là sử dụng phương pháp của các thành phần chính trong FA. Các tên có thể giống nhau, nhưng có sự khác biệt đáng kể. Cái trước là một phương pháp phân tích độc lập trong khi cái trước chỉ là một công cụ để trích xuất nhân tố.


13

Đối với tôi (và tôi hy vọng điều này là hữu ích) phân tích nhân tố hữu ích hơn nhiều so với PCA.

Gần đây, tôi có niềm vui phân tích thang đo thông qua phân tích nhân tố. Thang đo này (mặc dù nó được sử dụng rộng rãi trong công nghiệp) được phát triển bằng cách sử dụng PCA, và theo hiểu biết của tôi chưa bao giờ được phân tích.

Khi tôi thực hiện phân tích nhân tố (trục chính), tôi phát hiện ra rằng các cộng đồng cho ba trong số các mục nhỏ hơn 30%, điều đó có nghĩa là hơn 70% phương sai của các mục không được phân tích. PCA chỉ chuyển đổi dữ liệu thành một tổ hợp mới và không quan tâm đến cộng đồng. Kết luận của tôi là thang đo không phải là một điểm rất tốt theo quan điểm tâm lý học, và tôi đã xác nhận điều này bằng một mẫu khác.

Về cơ bản, nếu bạn muốn dự đoán bằng cách sử dụng các yếu tố, hãy sử dụng PCA, trong khi nếu bạn muốn hiểu các yếu tố tiềm ẩn, hãy sử dụng Phân tích nhân tố.


11

Mở rộng trên câu trả lời của @ StatisticsDocConsulting: sự khác biệt về tải giữa EFA và PCA là không tầm thường với một số lượng nhỏ các biến. Đây là một chức năng mô phỏng để chứng minh điều này trong R:

simtestit=function(Sample.Size=1000,n.Variables=3,n.Factors=1,Iterations=100)
{require(psych);X=list();x=matrix(NA,nrow=Sample.Size,ncol=n.Variables)
for(i in 1:Iterations){for(i in 1:n.Variables){x[,i]=rnorm(Sample.Size)}
X$PCA=append(X$PCA,mean(abs(principal(x,n.Factors)$loadings[,1])))
X$EFA=append(X$EFA,mean(abs(factanal(x,n.Factors)$loadings[,1])))};X}

IterationsSample.Size=1000Iterationsprincipal()factanal()

Sử dụng mã này, tôi đã mô phỏng các mẫu của 3 biến100100 với 500 lần lặp để tạo ra dữ liệu:

Y=data.frame(n.Variables=3:100,Mean.PCA.Loading=rep(NA,98),Mean.EFA.Loading=rep(NA,98))
for(i in 3:100)
{X=simtestit(n.Variables=i,Iterations=500);Y[i-2,2]=mean(X$PCA);Y[i-2,3]=mean(X$EFA)}

... cho một biểu đồ về độ nhạy của tải trung bình (trên các biến và lặp) với số lượng biến:

.067


10

Người ta có thể nghĩ về PCA giống như một FA trong đó các cộng đồng được giả định là bằng 1 cho tất cả các biến. Trong thực tế, điều này có nghĩa là các vật phẩm có tải yếu tố tương đối thấp trong FA do tính cộng đồng thấp sẽ có tải trọng cao hơn trong PCA. Đây không phải là một tính năng mong muốn nếu mục đích chính của phân tích là cắt giảm chiều dài vật phẩm và làm sạch pin của các vật phẩm có tải trọng thấp hoặc không rõ ràng hoặc để xác định các khái niệm không được thể hiện tốt trong nhóm vật phẩm.


10

Một trích dẫn từ một cuốn sách giáo khoa thực sự hay (Brown, 2006, trang 22, nhấn mạnh thêm).
PCA = phân tích thành phần chính
EFA = phân tích nhân tố khám phá
CFA = phân tích nhân tố xác nhận

Mặc dù liên quan đến EFA, phân tích thành phần chính (PCA) thường được phân loại thành phương pháp ước tính phân tích nhân tố chung. Không giống như các công cụ ước tính được thảo luận trong đoạn trước (ML, PF), PCA dựa vào một tập hợp các phương pháp định lượng khác nhau không dựa trên mô hình nhân tố chung. PCA không phân biệt phương sai phổ biến và duy nhất. Thay vào đó, PCA nhằm mục đích giải thích sự khác biệt trong các biện pháp được quan sát hơn là giải thích mối tương quan giữa chúng. Do đó, PCA được sử dụng một cách thích hợp hơn như là một kỹ thuật giảm dữ liệu để giảm một tập hợp các biện pháp lớn hơn xuống số lượng các biến tổng hợp nhỏ hơn, dễ quản lý hơn để sử dụng trong các phân tích tiếp theo. Tuy nhiên, một số nhà phương pháp học đã lập luận rằng PCA là sự thay thế hợp lý hoặc có lẽ là vượt trội so với EFA, theo quan điểm về việc PCA sở hữu một số thuộc tính thống kê mong muốn (ví dụ: đơn giản hơn về mặt tính toán, không nhạy cảm với các giải pháp không phù hợp, thường tạo ra kết quả tương tự như EFA, khả năng của PCA để tính điểm của người tham gia trên thành phần chính trong khi bản chất không xác định của EFA làm phức tạp các tính toán như vậy). Mặc dù cuộc tranh luận về vấn đề này vẫn tiếp tục, Fabrigar et al. (1999) cung cấp một số lý do đối lập với lập luận về vị trí của PCA trong phân tích nhân tố. Các tác giả này nhấn mạnh các tình huống trong đó EFA và PCA tạo ra kết quả không giống nhau; ví dụ, khi cộng đồng thấp hoặc khi chỉ có một vài chỉ số của một yếu tố nhất định (xem Widaman, 1993). thường tạo ra kết quả tương tự với EFA, khả năng của PCA để tính điểm của người tham gia trên một thành phần chính trong khi bản chất không xác định của EFA làm phức tạp các tính toán như vậy). Mặc dù cuộc tranh luận về vấn đề này vẫn tiếp tục, Fabrigar et al. (1999) cung cấp một số lý do đối lập với lập luận về vị trí của PCA trong phân tích nhân tố. Các tác giả này nhấn mạnh các tình huống trong đó EFA và PCA tạo ra kết quả không giống nhau; ví dụ, khi cộng đồng thấp hoặc khi chỉ có một vài chỉ số của một yếu tố nhất định (xem Widaman, 1993). thường tạo ra kết quả tương tự với EFA, khả năng của PCA để tính điểm của người tham gia trên một thành phần chính trong khi bản chất không xác định của EFA làm phức tạp các tính toán như vậy). Mặc dù cuộc tranh luận về vấn đề này vẫn tiếp tục, Fabrigar et al. (1999) cung cấp một số lý do đối lập với lập luận về vị trí của PCA trong phân tích nhân tố. Các tác giả này nhấn mạnh các tình huống trong đó EFA và PCA tạo ra kết quả không giống nhau; ví dụ, khi cộng đồng thấp hoặc khi chỉ có một vài chỉ số của một yếu tố nhất định (xem Widaman, 1993). (1999) cung cấp một số lý do đối lập với lập luận về vị trí của PCA trong phân tích nhân tố. Các tác giả này nhấn mạnh các tình huống trong đó EFA và PCA tạo ra kết quả không giống nhau; ví dụ, khi cộng đồng thấp hoặc khi chỉ có một vài chỉ số của một yếu tố nhất định (xem Widaman, 1993). (1999) cung cấp một số lý do đối lập với lập luận về vị trí của PCA trong phân tích nhân tố. Các tác giả này nhấn mạnh các tình huống trong đó EFA và PCA tạo ra kết quả không giống nhau; ví dụ, khi cộng đồng thấp hoặc khi chỉ có một vài chỉ số của một yếu tố nhất định (xem Widaman, 1993).Bất kể, nếu các mục tiêu hợp lý và thực nghiệm vượt trội của phân tích phù hợp với mô hình nhân tố chung, thì nó không phù hợp về mặt khái niệm và toán học khi tiến hành PCA; nghĩa là, EFA phù hợp hơn nếu mục tiêu đã nêu là tái tạo sự xen kẽ của một bộ chỉ số với số lượng kích thước tiềm ẩn nhỏ hơn, nhận ra sự tồn tại của lỗi đo lường trong các biện pháp quan sát được.Floyd và Widaman (1995) đưa ra điểm liên quan rằng các ước tính dựa trên EFA có nhiều khả năng khái quát hóa với CFA hơn là những điểm thu được từ PCA trong đó, không giống như PCA, EFA và CFA dựa trên mô hình nhân tố chung. Đây là một sự cân nhắc đáng chú ý trong bối cảnh thực tế là EFA thường được sử dụng như một tiền thân của CFA trong phát triển quy mô và xây dựng xác nhận. Một minh họa chi tiết về sự khác biệt tính toán giữa PCA và EFA có thể được tìm thấy trong sách giáo khoa phân tích đa biến và nhân tố (ví dụ, Tabachnick & Fidell, 2001).

Nâu, TA (2006). Phân tích nhân tố khẳng định cho nghiên cứu ứng dụng. New York: Nhà xuất bản Guilford.


6

Trong một bài viết của Tipping và Bischop, mối quan hệ chặt chẽ giữa PCA (PPCA) và phân tích nhân tố được thảo luận. PPCA gần với FA hơn PCA cổ điển. Mô hình phổ biến là

y= =μ+Wx+ε

WRp,Cười mở miệngx~VIẾT SAI RỒI(0,Tôi)ε~VIẾT SAI RỒI(0,Ψ)

  • Ψ
  • Ψ= =σ2Tôi

Michael E. Tipping, Christopher M. Giám mục (1999). Phân tích thành phần chính xác suất , Tạp chí của Hiệp hội thống kê Hoàng gia, Tập 61, Số 3, Trang 611 Từ622


2
+1. Đúng. Tôi tin rằng việc hiểu PPCA là cần thiết để hiểu mối quan hệ giữa PCA và FA. Nhưng bạn có thể cải thiện câu trả lời của mình bằng cách thảo luận về mối quan hệ PCA / PPCA.
amip

3

Không có phản ứng nào trong số này là hoàn hảo. FA hoặc PCA có một số biến thể. Chúng ta phải chỉ ra rõ ràng các biến thể được so sánh. Tôi sẽ so sánh phân tích nhân tố khả năng tối đa và PCA của Hotelling. Cái trước giả định biến tiềm ẩn tuân theo phân phối bình thường nhưng PCA không có giả định như vậy. Điều này đã dẫn đến sự khác biệt, chẳng hạn như giải pháp, lồng các thành phần, duy nhất của giải pháp, các thuật toán tối ưu hóa.


1
Tôi tự hỏi nếu bạn có thể mở rộng một chút về điều này - bạn đã nói có những khác biệt trong câu cuối cùng, nhưng không đưa ra nhiều thông tin về những khác biệt đó có thể là gì, hoặc theo cách nào những khác biệt đó có thể quan trọng?
Cá bạc

1
Để chọn hai phương thức xa nhất và để khẳng định rằng chúng thực sự khác nhau - giống như bạn - cũng không phải là một logic hoàn hảo. Có lẽ nên tìm và báo cáo hai cái này giống nhau như thế nào. Ngoài ra, người ta có thể chọn hầu hết các phương pháp tương tự (chẳng hạn như PCA đơn giản so với PAF ) và báo cáo theo cách chúng khác nhau.
ttnphns

1
PCA của Hotelling không giả sử các gaussian tiềm ẩn.
phỏng đoán

1

Có nhiều câu trả lời tuyệt vời cho bài đăng này nhưng gần đây, tôi đã bắt gặp một sự khác biệt khác.

Phân cụm là một ứng dụng trong đó PCA và FA mang lại kết quả khác nhau. Khi có nhiều tính năng trong dữ liệu, người ta có thể cố gắng tìm các hướng PC hàng đầu và chiếu dữ liệu trên các PC này, sau đó tiến hành phân cụm. Thông thường, điều này làm xáo trộn các cụm vốn có trong dữ liệu - Đây là một kết quả đã được chứng minh. Các nhà nghiên cứu đề nghị tiến hành các phương pháp phân cụm không gian phụ, tìm kiếm các yếu tố tiềm ẩn chiều thấp trong mô hình.

Chỉ để minh họa cho sự khác biệt này, hãy xem xét Crabstập dữ liệu trong bộ dữ liệu của R. Crabs có 200 hàng và 8 cột, mô tả 5 phép đo hình thái trên 50 con cua mỗi dạng hai màu và cả hai giới, của loài - Về cơ bản có 4 (2x2) lớp khác nhau cua.

library(MASS)
data(crabs)
lbl <- rep(1:4,each=50)
pc <- princomp(crabs[,4:8])
plot(pc) # produce the scree plot
X <- as.matrix(crabs[,4:8]) %*% pc$loadings
library(mclust)
res_12 <- Mclust(X[,1:2],G=4)
plot(res_12)


res_23 <- Mclust(X[,2:3],G=4)
plot(res_23)

Phân cụm bằng PC1 và PC2: nhập mô tả hình ảnh ở đây

Phân cụm bằng PC2 và PC3: nhập mô tả hình ảnh ở đây

#using PC1 and PC2:
     1  2  3  4
  1 12 46 24  5
  2 36  0  2  0
  3  2  1 24  0
  4  0  3  0 45

#using PC2 and PC3:
    1  2  3  4
  1 36  0  0  0
  2 13 48  0  0
  3  0  1  0 48
  4  1  1 50  2

Như chúng ta có thể thấy từ các lô trên, PC2 và PC3 mang nhiều thông tin phân biệt đối xử hơn PC1.

Nếu một người cố gắng phân cụm bằng cách sử dụng các yếu tố tiềm ẩn bằng cách sử dụng Bộ phân tích nhân tố hỗn hợp, chúng ta sẽ thấy kết quả tốt hơn nhiều so với việc sử dụng hai PC đầu tiên.

mfa_model <- mfa(y, g = 4, q = 2)
  |............................................................| 100%
table(mfa_model$clust,c(rep(1,50),rep(2,50),rep(3,50),rep(4,50)))

     1  2  3  4
  1  0  0  0 45
  2 16 50  0  0
  3 34  0  0  0
  4  0  0 50  5

Tôi phải nói rằng tôi nghi ngờ câu trả lời này thực sự trả lời câu hỏi. Câu trả lời là về phân tích cụm sau PCA hoặc FA, không phải về PCA và FA. Nhưng ngay cả trong khía cạnh đó, câu trả lời là mờ hoặc chưa hoàn thành. Làm thế nào sự khác biệt bạn hiển thị sẽ được giải thích?
ttnphns

@ttnphns Tôi đồng ý với câu trả lời là về phân tích cụm. Tuy nhiên, OP cũng đã yêu cầu một kịch bản thực tế với PCA / FA, nơi một cái cần được sử dụng so với cái kia. Thông thường PCA hoặc FA không bao giờ là mục tiêu cuối cùng - Ví dụ: Trong khoa học xã hội, mục tiêu cuối cùng sẽ là phân chia các đối tượng thành các cụm / nhóm khác nhau. Câu trả lời của tôi giải quyết các kịch bản như vậy. Trong trường hợp, bạn nghĩ rằng câu trả lời của tôi có thể được cải thiện, hãy thoải mái chỉ ra.
kasa

Tôi nghĩ rằng câu trả lời của bạn có thể trở nên thực sự phù hợp nếu bạn giải thích phát hiện của mình. Bạn cho rằng sự khác biệt giữa PCA và FA là nội tại của hai phương thức (chỉ chúng mới trở nên rõ ràng khi phân cụm). Tôi nghĩ bạn nên thể hiện hoặc ít nhất là suy đoán làm thế nào hoặc tại sao sự khác biệt nảy sinh về mặt lý thuyết từ sự khác biệt của các mô hình phương pháp.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.