Cả hai mô hình - thành phần chính và yếu tố chung - là các mô hình hồi quy tuyến tính đơn giản tương tự dự đoán các biến quan sát bằng các biến tiềm ẩn. Hãy để chúng tôi có các biến trung tâm V1 V2 ... Vp và chúng tôi đã chọn trích xuất 2 thành phần / yếu tố FI và FII . Sau đó, mô hình là hệ phương trình:
V1=a1IFI+a1IIFII+E1
V2=a2IFI+a2IIFII+E2
...
Vp=…
trong đó hệ số a là tải, F là hệ số hoặc thành phần và biến E là phần dư hồi quy. Ở đây, mô hình FA khác với mô hình PCA chính xác bởi FA đó áp đặt yêu cầu: các biến E1 E2 ... Ep (các thuật ngữ lỗi không tương thích với F s) không được tương quan với nhau ( Xem hình ). Các biến lỗi FA gọi là "các yếu tố duy nhất"; phương sai của chúng được biết đến ("tính duy nhất") nhưng giá trị casewise của chúng thì không. Do đó, điểm yếu tố F chỉ được tính là xấp xỉ tốt, chúng không chính xác.
(Một bản trình bày đại số ma trận của mô hình phân tích nhân tố chung này có trong Chú thích 1. )1
Trong khi đó trong PCA, các biến lỗi dự đoán các biến khác nhau có thể tự do tương quan: không có gì được áp đặt cho chúng. Chúng đại diện cho "dross" chúng tôi đã lấy kích thước p-2 bên trái cho. Chúng tôi biết các giá trị của E và vì vậy chúng tôi có thể tính điểm thành phần F là các giá trị chính xác.
Đó là sự khác biệt giữa mô hình PCA và mô hình FA.
Đó là do sự khác biệt được nêu ở trên, FA có thể giải thích các mối tương quan theo cặp (hiệp phương sai). PCA thường không thể làm điều đó (trừ khi số lượng thành phần được trích xuất = p ); nó chỉ có thể giải thích phương sai đa biến 2 . Vì vậy, miễn là thuật ngữ "Phân tích nhân tố" được xác định thông qua mục đích giải thích các mối tương quan, PCA không phải là phân tích nhân tố. Nếu "Phân tích nhân tố" được định nghĩa rộng hơn là một phương pháp cung cấp hoặc gợi ý những "đặc điểm" tiềm ẩn có thể được giải thích, thì PCA có thể được xem là một hình thức phân tích nhân tố đặc biệt và đơn giản nhất .2
Đôi khi - trong một số bộ dữ liệu trong một số điều kiện nhất định - PCA để lại các thuật ngữ E gần như không liên kết với nhau. Sau đó, PCA có thể giải thích các mối tương quan và trở nên giống FA. Nó không phải là rất phổ biến với các bộ dữ liệu với nhiều biến. Điều này khiến một số nhà quan sát cho rằng kết quả PCA trở nên gần với kết quả FA khi dữ liệu tăng lên. Tôi không nghĩ đó là một quy tắc, nhưng xu hướng thực sự có thể là. Dù sao, với sự khác biệt về lý thuyết của họ, luôn luôn tốt khi chọn phương pháp một cách có ý thức. FA là một mô hình thực tế hơn nếu bạn muốn giảm các biến xuống mức tiềm ẩn mà bạn sẽ coi là các đặc điểm tiềm ẩn thực sự đứng đằng sau các biến và làm cho chúng tương quan.
Nhưng nếu bạn có một mục tiêu khác - giảm tính chiều trong khi vẫn giữ khoảng cách giữa các điểm của đám mây dữ liệu càng nhiều càng tốt - PCA tốt hơn FA. (Tuy nhiên, quy trình nhân rộng đa chiều lặp lại (MDS) thậm chí sẽ tốt hơn sau đó. PCA tương đương với số liệu MDS không thay đổi.) Nếu bạn không bận tâm nhiều đến khoảng cách nhiều và chỉ quan tâm đến việc giữ nguyên nhiều phương sai của dữ liệu càng tốt, theo một vài chiều - PCA là một lựa chọn tối ưu.
Yếu tố mô hình phân tích dữ liệu: V = F A ' + E d i một g ( u ) , nơi V đượcphân tích dữ liệu (cột trung tâm hoặc tiêu chuẩn), F làgiá trị yếu tố chung (những người thật sự không rõ, không điểm số yếu tố) với đơn vị phương sai, A làma trận của các yếu tố tải chung (ma trận mẫu), E làcác giá trị yếu tố duy nhất (chưa biết), u làvectơ của các hệ số tải duy nhất bằng với căn bậc hai của các tính duy nhất ( u 2 ). Phần1V=FA′+Ediag(u)Vn cases x p variables
Fn x m
Ap x m
En x p
up
u2 có thể chỉ được gắn nhãn là "E" vì đơn giản, vì nó nằm trong công thức mở câu trả lời.Ediag(u)
Các giả định chính của mô hình:
- Biến F và E (tương ứng các yếu tố phổ biến và duy nhất) có phương tiện và phương sai đơn vị bằng không;
E thường được giả định là đa biến thông thường nhưng F trong trường hợp chung không cần đa biến bình thường (nếu cả hai đều được giả định là đa biến bình thường thì V cũng vậy);FEEFV
- biến E không tương quan với nhau và không tương thích vớicác biến F.EF
Nó sau từ phổ biếnphân tích yếu tốmô hìnhmà loadings Một củamyếu tố chung (m<pbiến), cũng ký hiệu là A ( m ) , nên sinh sản chặt chẽ hiệp phương sai quan sát (hoặc tương quan) giữa các biến, Σ . Vì vậy, nếu các yếu tố là trực giao,định lý yếu tốcơ bảnnói rằng2 AA(m)Σ
vàΣ≈ Σ +dimộtg(u2),Σ^=AA′Σ≈Σ^+diag(u2)
nơi Σ là ma trận hiệp phương sai sao chép (hoặc tương quan) với chênh lệch thông thường ( "communalities") trên đường chéo của nó; và phương sai duy nhất ("tính duy nhất") - là phương sai trừ cộng đồng - là vectơ u 2 . Sự khác biệt ngoài đường chéo ( ≈ ) là do các yếu tố đó là mô hình lý thuyết tạo dữ liệu và do đó nó đơn giản hơn dữ liệu quan sát được xây dựng trên đó. Các nguyên nhân chính của sự khác biệt giữa hiệp phương sai được quan sát và tái tạo (hoặc tương quan) có thể là: (1) số yếu tố m không tối ưu về mặt thống kê; (2) tương quan một phần (đây làΣ^u2≈p(p-1)/2
các yếu tố không thuộc về các yếu tố phổ biến) được phát âm; (3) cộng đồng không được khẳng định tốt, giá trị ban đầu của họ rất kém; (4) mối quan hệ không phải là tuyến tính, sử dụng mô hình tuyến tính là câu hỏi; (5) mô hình "kiểu con" được tạo ra bằng phương pháp trích xuất là không tối ưu cho dữ liệu (xem về các phương pháp trích xuất khác nhau ). Nói cách khác, một số giả định dữ liệu FA không được đáp ứng đầy đủ.
Đối với PCA đơn giản , nó tái tạo hiệp phương sai bằng các tải trọng chính xác khi m = p (tất cả các thành phần được sử dụng) và nó thường không thực hiện được nếu m < p (chỉ có vài thành phần 1 được giữ lại). Định lý nhân tố cho PCA là:
,Σ=AA′(p)=AA′(m)+AA′(p−m)
do đó, cả tải và tải A ( p - m ) đều là hỗn hợp của các cộng đồng và tính duy nhất và không riêng lẻ nào có thể giúp khôi phục hiệp phương sai. M càng gần với p , PCA càng phục hồi hiệp phương sai, như một quy luật, nhưng m nhỏ (thường là mối quan tâm của chúng tôi) không giúp ích gì. Điều này khác với FA, được dự định để khôi phục hiệp phương sai với số lượng yếu tố tối ưu khá nhỏ. Nếu A A ′ ( p - m ) tiếp cận đường chéo thì PCA trở nên giống FA, với AA(m)A(p−m)AA′(p−m) khôi phục tất cả các hiệp phương sai. Nó xảy ra đôi khi với PCA, như tôi đã đề cập. Nhưng PCA thiếu khả năng thuật toán để buộc đường chéo như vậy. Đó là thuật toán FA người làm điều đó.A(m)
FA, không phải PCA, là một mô hình tạo dữ liệu: nó giả sử một số yếu tố chung "đúng" (thường là số chưa biết, vì vậy bạn thử dùng m trong một phạm vi) tạo ra các giá trị "đúng" cho hiệp phương sai. Hiệp phương sai quan sát là những cái "thật" + nhiễu nhỏ ngẫu nhiên. (Đó là do đường chéo được thực hiện đã tạo ra trình phục hồi duy nhất của tất cả các hiệp phương sai, tiếng ồn trên có thể nhỏ và ngẫu nhiên.) .A(m)
Cả FA và PCA đều nhằm mục đích tối đa hóa , nhưng đối với PCA, đó là mục tiêu duy nhất; Đối với FA, đó là mục tiêu đồng thời, mục tiêu khác là vượt qua sự độc đáo. Dấu vết đó là tổng giá trị bản địa trong PCA. Một số phương pháp trích xuất trong FA thêm các mục tiêu đồng thời với chi phí tối đa hóa dấu vết, vì vậy nó không quan trọng.trace(A′A(m))
ΣAA′trace(AA′)trace(A′A)A′A
Nhờ tối đa hóa dấu vết - phương sai được giải thích bởi m thành phần - PCA đang chiếm tỷ lệ hiệp phương sai, vì hiệp phương sai được chia sẻ phương sai. Theo nghĩa này, PCA là "xấp xỉ thứ hạng thấp" của toàn bộ ma trận hiệp phương sai của các biến. Và khi nhìn từ quan điểm của các quan sát, phép tính gần đúng này là xấp xỉ của ma trận quan sát khoảng cách Euclide (đó là lý do tại sao PCA là số liệu MDS gọi là "Phân tích tọa độ chính). Thực tế này không nên sàng lọc chúng ta khỏi thực tế mà PCA không mô hình hóa Ma trận hiệp phương sai (mỗi hiệp phương sai) được tạo ra bởi một vài đặc điểm tiềm ẩn sống có thể tưởng tượng là siêu việt đối với các biến của chúng ta, phép tính gần đúng của PCA vẫn còn nguyên, ngay cả khi nó tốt: đó là đơn giản hóa dữ liệu.
Nếu bạn muốn xem các tính toán từng bước được thực hiện trong PCA và FA, đã nhận xét và so sánh, vui lòng xem tại đây .