PCA và Phân tích nhân tố khám phá trên cùng một bộ dữ liệu: sự khác biệt và tương đồng; mô hình nhân tố vs PCA

Tôi muốn biết liệu nó có ý nghĩa logic nào để thực hiện phân tích thành phần chính (PCA) và phân tích nhân tố khám phá (EFA) trên cùng một tập dữ liệu hay không. Tôi đã nghe các chuyên gia giới thiệu rõ ràng:

Hiểu mục tiêu của phân tích là gì và chọn PCA hoặc EFA cho phân tích dữ liệu;
Đã thực hiện một phân tích, không cần phải thực hiện phân tích khác.

Tôi hiểu sự khác biệt về động lực giữa hai người, nhưng tôi chỉ tự hỏi liệu có gì sai trong việc diễn giải kết quả do PCA và EFA cung cấp cùng một lúc không?

pca factor-analysis

— người dùng42538
nguồn

Vì sao bất an? Nếu bạn hiểu sự khác biệt về động lực giữa hai người, bạn nên ở một trong hai vị trí: coi họ là bổ sung và sẵn sàng khám phá cả hai. Xem xét một trong những thuyết phục hơn nhiều cho những gì bạn muốn làm. Có vẻ như bạn muốn được nói rằng có một việc phải làm, nhưng PCA với hoặc so với FA là một lĩnh vực tranh cãi lâu dài đến mức nếu hai chuyên gia đồng ý thì thường chỉ có cả hai không đồng ý với chuyên gia thứ ba, nhưng khác nhau lý do.

— Nick Cox

Bạn đang học gì vậy? Một số ngành khoa học xã hội như hạnh phúc hay dữ liệu khách quan như lãi suất?

— Aksakal

Cả hai mô hình - thành phần chính và yếu tố chung - là các mô hình hồi quy tuyến tính đơn giản tương tự dự đoán các biến quan sát bằng các biến tiềm ẩn. Hãy để chúng tôi có các biến trung tâm V1 V2 ... Vp và chúng tôi đã chọn trích xuất 2 thành phần / yếu tố FI và FII . Sau đó, mô hình là hệ phương trình:

$V_1 = a_{1I}F_I + a_{1II}F_{II} + E_1$

$V_2 = a_{2I}F_I + a_{2II}F_{II} + E_2$

$...$

$V_p = …$

trong đó hệ số a là tải, F là hệ số hoặc thành phần và biến E là phần dư hồi quy. Ở đây, mô hình FA khác với mô hình PCA chính xác bởi FA đó áp đặt yêu cầu: các biến E1 E2 ... Ep (các thuật ngữ lỗi không tương thích với F s) không được tương quan với nhau ( Xem hình ). Các biến lỗi FA gọi là "các yếu tố duy nhất"; phương sai của chúng được biết đến ("tính duy nhất") nhưng giá trị casewise của chúng thì không. Do đó, điểm yếu tố F chỉ được tính là xấp xỉ tốt, chúng không chính xác.

(Một bản trình bày đại số ma trận của mô hình phân tích nhân tố chung này có trong Chú thích ) $^1$

Trong khi đó trong PCA, các biến lỗi dự đoán các biến khác nhau có thể tự do tương quan: không có gì được áp đặt cho chúng. Chúng đại diện cho "dross" chúng tôi đã lấy kích thước p-2 bên trái cho. Chúng tôi biết các giá trị của E và vì vậy chúng tôi có thể tính điểm thành phần F là các giá trị chính xác.

Đó là sự khác biệt giữa mô hình PCA và mô hình FA.

Đó là do sự khác biệt được nêu ở trên, FA có thể giải thích các mối tương quan theo cặp (hiệp phương sai). PCA thường không thể làm điều đó (trừ khi số lượng thành phần được trích xuất = p ); nó chỉ có thể giải thích phương sai đa biến . Vì vậy, miễn là thuật ngữ "Phân tích nhân tố" được xác định thông qua mục đích giải thích các mối tương quan, PCA không phải là phân tích nhân tố. Nếu "Phân tích nhân tố" được định nghĩa rộng hơn là một phương pháp cung cấp hoặc gợi ý những "đặc điểm" tiềm ẩn có thể được giải thích, thì PCA có thể được xem là một hình thức phân tích nhân tố đặc biệt và đơn giản nhất . $^2$

Đôi khi - trong một số bộ dữ liệu trong một số điều kiện nhất định - PCA để lại các thuật ngữ E gần như không liên kết với nhau. Sau đó, PCA có thể giải thích các mối tương quan và trở nên giống FA. Nó không phải là rất phổ biến với các bộ dữ liệu với nhiều biến. Điều này khiến một số nhà quan sát cho rằng kết quả PCA trở nên gần với kết quả FA khi dữ liệu tăng lên. Tôi không nghĩ đó là một quy tắc, nhưng xu hướng thực sự có thể là. Dù sao, với sự khác biệt về lý thuyết của họ, luôn luôn tốt khi chọn phương pháp một cách có ý thức. FA là một mô hình thực tế hơn nếu bạn muốn giảm các biến xuống mức tiềm ẩn mà bạn sẽ coi là các đặc điểm tiềm ẩn thực sự đứng đằng sau các biến và làm cho chúng tương quan.

Nhưng nếu bạn có một mục tiêu khác - giảm tính chiều trong khi vẫn giữ khoảng cách giữa các điểm của đám mây dữ liệu càng nhiều càng tốt - PCA tốt hơn FA. (Tuy nhiên, quy trình nhân rộng đa chiều lặp lại (MDS) thậm chí sẽ tốt hơn sau đó. PCA tương đương với số liệu MDS không thay đổi.) Nếu bạn không bận tâm nhiều đến khoảng cách nhiều và chỉ quan tâm đến việc giữ nguyên nhiều phương sai của dữ liệu càng tốt, theo một vài chiều - PCA là một lựa chọn tối ưu.

Yếu tố mô hình phân tích dữ liệu: , nơi đượcphân tích dữ liệu (cột trung tâm hoặc tiêu chuẩn), làgiá trị yếu tố chung (những người thật sự không rõ, không điểm số yếu tố) với đơn vị phương sai, làma trận của các yếu tố tải chung (ma trận mẫu), làcác giá trị yếu tố duy nhất (chưa biết), làvectơ của các hệ số tải duy nhất bằng với căn bậc hai của các tính duy nhất ( ). Phần $^1$ $\mathbf {V=FA'+E}diag \bf(u)$ $\bf V$ n cases x p variables $\bf F$ n x m $\bf A$ p x m $\bf E$ n x p $\bf u$ p $\bf u^2$ có thể chỉ được gắn nhãn là "E" vì đơn giản, vì nó nằm trong công thức mở câu trả lời. $\mathbf E diag \bf(u)$

Các giả định chính của mô hình:

Biến và (tương ứng các yếu tố phổ biến và duy nhất) có phương tiện và phương sai đơn vị bằng không; thường được giả định là đa biến thông thường nhưng trong trường hợp chung không cần đa biến bình thường (nếu cả hai đều được giả định là đa biến bình thường thì cũng vậy); $\bf F$ $\bf E$ $\bf E$ $\bf F$ $\bf V$
biến không tương quan với nhau và không tương thích vớicác biến $\bf E$ $\bf F$

Nó sau từ phổ biếnphân tích yếu tốmô hìnhmà loadings củamyếu tố chung (m<pbiến), cũng ký hiệu là , nên sinh sản chặt chẽ hiệp phương sai quan sát (hoặc tương quan) giữa các biến, . Vì vậy, nếu các yếu tố là trực giao,định lý yếu tốcơ bảnnói rằng $^2$ $\bf A$ $\bf A_{(m)}$ $\bf \Sigma$

và, $\bf \hat{\Sigma} = AA'$ $\bf \Sigma \approx \hat{\Sigma} + \it diag \bf (u^2)$

nơi là ma trận hiệp phương sai sao chép (hoặc tương quan) với chênh lệch thông thường ( "communalities") trên đường chéo của nó; và phương sai duy nhất ("tính duy nhất") - là phương sai trừ cộng đồng - là vectơ . Sự khác biệt ngoài đường chéo ( ) là do các yếu tố đó là mô hình lý thuyết tạo dữ liệu và do đó nó đơn giản hơn dữ liệu quan sát được xây dựng trên đó. Các nguyên nhân chính của sự khác biệt giữa hiệp phương sai được quan sát và tái tạo (hoặc tương quan) có thể là: (1) số yếu tố m không tối ưu về mặt thống kê; (2) tương quan một phần (đây là $\bf \hat{\Sigma}$ $\bf u^2$ $\approx$ p(p-1)/2các yếu tố không thuộc về các yếu tố phổ biến) được phát âm; (3) cộng đồng không được khẳng định tốt, giá trị ban đầu của họ rất kém; (4) mối quan hệ không phải là tuyến tính, sử dụng mô hình tuyến tính là câu hỏi; (5) mô hình "kiểu con" được tạo ra bằng phương pháp trích xuất là không tối ưu cho dữ liệu (xem về các phương pháp trích xuất khác nhau ). Nói cách khác, một số giả định dữ liệu FA không được đáp ứng đầy đủ.

Đối với PCA đơn giản , nó tái tạo hiệp phương sai bằng các tải trọng chính xác khi m = p (tất cả các thành phần được sử dụng) và nó thường không thực hiện được nếu m < p (chỉ có vài thành phần 1 được giữ lại). Định lý nhân tố cho PCA là:

, $\bf \Sigma= AA'_{(p)} = AA'_{(m)} + AA'_{(p-m)}$

do đó, cả tải và tải đều là hỗn hợp của các cộng đồng và tính duy nhất và không riêng lẻ nào có thể giúp khôi phục hiệp phương sai. M càng gần với p , PCA càng phục hồi hiệp phương sai, như một quy luật, nhưng m nhỏ (thường là mối quan tâm của chúng tôi) không giúp ích gì. Điều này khác với FA, được dự định để khôi phục hiệp phương sai với số lượng yếu tố tối ưu khá nhỏ. Nếu tiếp cận đường chéo thì PCA trở nên giống FA, với $\bf A_{(m)}$ $\bf A_{(p-m)}$ $\bf AA'_{(p-m)}$ khôi phục tất cả các hiệp phương sai. Nó xảy ra đôi khi với PCA, như tôi đã đề cập. Nhưng PCA thiếu khả năng thuật toán để buộc đường chéo như vậy. Đó là thuật toán FA người làm điều đó. $\bf A_{(m)}$

FA, không phải PCA, là một mô hình tạo dữ liệu: nó giả sử một số yếu tố chung "đúng" (thường là số chưa biết, vì vậy bạn thử dùng m trong một phạm vi) tạo ra các giá trị "đúng" cho hiệp phương sai. Hiệp phương sai quan sát là những cái "thật" + nhiễu nhỏ ngẫu nhiên. (Đó là do đường chéo được thực hiện đã tạo ra trình phục hồi duy nhất của tất cả các hiệp phương sai, tiếng ồn trên có thể nhỏ và ngẫu nhiên.) . $\bf A_{(m)}$

Cả FA và PCA đều nhằm mục đích tối đa hóa , nhưng đối với PCA, đó là mục tiêu duy nhất; Đối với FA, đó là mục tiêu đồng thời, mục tiêu khác là vượt qua sự độc đáo. Dấu vết đó là tổng giá trị bản địa trong PCA. Một số phương pháp trích xuất trong FA thêm các mục tiêu đồng thời với chi phí tối đa hóa dấu vết, vì vậy nó không quan trọng. $trace(\bf A'A_{(m)})$

$\bf \Sigma$ $\bf AA'$ $trace(\bf AA')$ $trace(\bf A'A)$ $\bf A'A$

Nhờ tối đa hóa dấu vết - phương sai được giải thích bởi m thành phần - PCA đang chiếm tỷ lệ hiệp phương sai, vì hiệp phương sai được chia sẻ phương sai. Theo nghĩa này, PCA là "xấp xỉ thứ hạng thấp" của toàn bộ ma trận hiệp phương sai của các biến. Và khi nhìn từ quan điểm của các quan sát, phép tính gần đúng này là xấp xỉ của ma trận quan sát khoảng cách Euclide (đó là lý do tại sao PCA là số liệu MDS gọi là "Phân tích tọa độ chính). Thực tế này không nên sàng lọc chúng ta khỏi thực tế mà PCA không mô hình hóa Ma trận hiệp phương sai (mỗi hiệp phương sai) được tạo ra bởi một vài đặc điểm tiềm ẩn sống có thể tưởng tượng là siêu việt đối với các biến của chúng ta, phép tính gần đúng của PCA vẫn còn nguyên, ngay cả khi nó tốt: đó là đơn giản hóa dữ liệu.

Nếu bạn muốn xem các tính toán từng bước được thực hiện trong PCA và FA, đã nhận xét và so sánh, vui lòng xem tại đây .

— ttnphns
nguồn

Đó là một câu trả lời tuyệt vời.

— Subhash C. Davar

+1 để mang đến cho tôi một góc nhìn mới mẻ về việc xem PCA. Bây giờ theo tôi hiểu, cả PCA và FA đều có thể giải thích phương sai của các biến quan sát và vì FA cho rằng các thuật ngữ lỗi cho mỗi biến không nên tương quan, trong khi PCA không đưa ra chính tả như vậy, vì vậy FA có thể nắm bắt được tất cả các hiệp phương sai trong các biến quan sát, nhưng PCA không thực hiện được điều đó, vì trong PCA, các thuật ngữ lỗi cũng có thể chứa một số hiệp phương sai của các biến quan sát, trừ khi chúng ta sử dụng tất cả các PC để biểu diễn các biến quan sát, phải không?

— bơ

Chính xác. PCA không chỉ có thể đánh giá thấp một giá trị hiệp phương sai (như bạn có thể nghĩ), mà còn có thể đánh giá quá cao nó. Nói tóm lại, a1 * a2 <> Cov12, đây là hành vi bình thường đối với PCA. Đối với FA, đó sẽ là dấu hiệu của giải pháp tối ưu (ví dụ, sai số lượng các yếu tố được trích xuất).

— ttnphns

Σ = W W^{⊤} + σ^{2} I

$\Sigma = WW^\top+\sigma^2 I$

Σ = W W^{⊤} + Ψ

$\Sigma = WW^\top+\Psi$

Ψ

$\Psi$

— amip nói rằng Phục hồi lại

Σ

$\Sigma$

W W^{'}

$WW'$

W

$W$

Ψ

$\Psi$

σ^{2}

$\sigma^2$

Tôi đã cung cấp tài khoản của riêng tôi về những điểm tương đồng và khác biệt giữa PCA và FA trong chuỗi sau: Có lý do chính đáng nào để sử dụng PCA thay vì EFA không? Ngoài ra, PCA có thể thay thế cho phân tích nhân tố không?

Lưu ý rằng tài khoản của tôi hơi khác so với tài khoản của @ttnphns (như được trình bày trong câu trả lời của anh ấy ở trên). Yêu cầu chính của tôi là PCA và FA không khác nhau như thường nghĩ. Chúng thực sự có thể khác nhau mạnh mẽ khi số lượng biến rất thấp, nhưng có xu hướng mang lại kết quả khá giống nhau khi số lượng biến số khoảng hơn một chục. Xem câu trả lời [dài!] Của tôi trong chuỗi liên kết để biết chi tiết toán học và mô phỏng Monte Carlo. Đối với phiên bản ngắn gọn hơn nhiều của đối số của tôi, hãy xem ở đây: Trong điều kiện nào, PCA và FA mang lại kết quả tương tự?

Ở đây tôi muốn trả lời rõ ràng câu hỏi chính của bạn: Có điều gì sai khi thực hiện PCA và FA trên cùng một tập dữ liệu không? Câu trả lời của tôi cho điều này là: Không.

Khi chạy PCA hoặc FA, bạn không kiểm tra bất kỳ giả thuyết nào. Cả hai đều là các kỹ thuật khám phá được sử dụng để hiểu rõ hơn về dữ liệu. Vậy tại sao không khám phá dữ liệu với hai công cụ khác nhau? Trong thực tế, hãy làm điều đó!

Ví dụ: tập dữ liệu rượu

$n=178$ $p=13$

Phân tích PCA và FA của bộ dữ liệu rượu vang

— amip nói phục hồi Monica
nguồn

If the results turn out to be very similar, then you can decide to stick with only one approach. Chắc chắn rồi. Bao nhiêu tương tự sau đó? If the results turn out to be very different, then maybe it tells you something about your dataĐiều đó hoàn toàn thần bí & bí truyền.

— ttnphns

Hmmm, xin lỗi nếu nó không rõ ràng. Ý tôi là nếu có nhiều biến số và PCA mang lại tải rất khác so với FA, nó cho chúng ta biết điều gì đó. Có lẽ, cộng đồng rất thấp (tức là ma trận tương quan bị chi phối bởi các đường chéo và các yếu tố ngoài đường chéo là nhỏ). Đây có thể là một quan sát thú vị. Nếu tôi vì một số lý do đã phân tích cùng một bộ dữ liệu với PCA và FA và nhận được kết quả rất khác nhau, tôi sẽ điều tra thêm. Liệu nó có ý nghĩa?

— amip nói rằng Phục hồi lại

@ttnphns: Tôi đã thực hiện cập nhật với một ví dụ được thực hiện cho một bộ dữ liệu cụ thể. Tôi hy vọng bạn sẽ thích nó! Xem thêm câu trả lời liên kết (mới) của tôi. Đây là lần đầu tiên tôi thực hiện một biplot FA, và những cuộc trò chuyện trước đó của chúng tôi đã giúp tôi rất nhiều cho điều đó.

— amip nói rằng phục hồi Monica