Trong câu trả lời này của tôi (một giây và bổ sung cho câu hỏi khác của tôi ở đây) tôi sẽ cố gắng thể hiện bằng hình ảnh rằng PCA không khôi phục hiệp phương sai bất kỳ (trong khi nó khôi phục - tối đa hóa - phương sai một cách tối ưu).
Như trong một số câu trả lời của tôi về PCA hoặc phân tích nhân tố, tôi sẽ chuyển sang biểu diễn vectơ của các biến trong không gian chủ đề . Trong trường hợp này, nó chỉ là một biểu đồ tải hiển thị các biến và tải thành phần của chúng. Vì vậy, chúng tôi đã nhận và các biến (chúng tôi chỉ có hai trong tập dữ liệu đã có), thành phần chính 1 của họ, với tải trọng và . Góc giữa các biến cũng được đánh dấu. Các biến được tập trung sơ bộ, do đó độ dài bình phương của chúng, và là phương sai tương ứng của chúng.X 2 F a 1 a 2 h 2 1 h 2 2X1X2ĐỤmột1một2h21h22
Hiệp phương sai giữa và là - đó là sản phẩm vô hướng của họ - (nhân tiện, cosin này là giá trị tương quan). Tất nhiên, tải PCA, nắm bắt tối đa khả năng của phương sai tổng thể bởi , phương sai của thành phầnX 2 h 1 h 2 c o s ϕ h 2 1 + h 2 2 a 2 1 + a 2 2 FX1X2h1h2c o s φh21+ h22một21+ một22ĐỤ
Bây giờ, hiệp phương sai , trong đó là hình chiếu của biến trên biến (hình chiếu là dự đoán hồi quy của biến thứ nhất theo giây). Và do đó, cường độ của hiệp phương sai có thể được biểu hiện bằng diện tích của hình chữ nhật bên dưới (với các cạnh và ).g 1 X 1 X 2 g 1 h 2h1h2c o s ϕ = g1h2g1X1X2g1h2
Theo cái gọi là "định lý nhân tố" (có thể biết nếu bạn đọc một cái gì đó về phân tích nhân tố), hiệp phương sai giữa các biến phải được (gần đúng, nếu không chính xác) được sao chép bằng cách nhân tải của biến tiềm ẩn được trích xuất (s) ( đọc ). Đó là, bởi, , trong trường hợp cụ thể của chúng tôi (nếu nhận ra thành phần chính là biến tiềm ẩn của chúng tôi). Đó là giá trị của hiệp phương sai sao chép có thể được trả lại bằng diện tích của một hình chữ nhật có cạnh và . Hãy để chúng tôi vẽ hình chữ nhật, căn chỉnh bởi hình chữ nhật trước, để so sánh. Hình chữ nhật đó được hiển thị nở bên dưới và khu vực của nó có biệt danh là cov * ( cov sao chép ).a 1 a 2một1một2một1một2
Rõ ràng là hai khu vực khá giống nhau, với ví dụ * lớn hơn đáng kể trong ví dụ của chúng tôi. Hiệp phương sai đã được đánh giá quá cao bởi các tải của , thành phần chính thứ nhất. Điều này trái ngược với ai đó có thể mong đợi rằng PCA, chỉ bằng thành phần thứ nhất trong hai thành phần có thể, sẽ khôi phục giá trị quan sát của hiệp phương sai.ĐỤ
Chúng ta có thể làm gì với âm mưu của mình để tạo ra sự sinh sản? Ví dụ, chúng ta có thể xoay chùm theo chiều kim đồng hồ một chút, thậm chí cho đến khi nó chồng lên với . Khi các dòng của chúng trùng nhau, điều đó có nghĩa là chúng tôi đã buộc là biến tiềm ẩn của chúng tôi. Sau đó, tải (hình chiếu của trên đó) sẽ là và tải (hình chiếu của trên đó) sẽ là . Sau đó, hai hình chữ nhật là cùng một - hình chữ nhật được dán nhãn cov , và do đó hiệp phương sai được tái tạo hoàn hảo. Tuy nhiên, , phương sai được giải thích bởi "biến tiềm ẩn" mới, nhỏ hơnX 2 X 2 a 2 X 2 h 2 a 1 X 1 g 1 g 2 1 + h 2 2 a 2 1 + a 2 2ĐỤX2X2một2X2h2một1X1g1g21+ h22một21+ một22 , phương sai được giải thích bởi biến tiềm ẩn cũ, thành phần chính thứ 1 (vuông và xếp cạnh của hai hình chữ nhật trên hình, để so sánh). Có vẻ như chúng tôi đã cố gắng tái tạo hiệp phương sai, nhưng với chi phí giải thích số lượng phương sai. Tức là bằng cách chọn một trục tiềm ẩn khác thay vì thành phần chính đầu tiên.
Trí tưởng tượng hoặc phỏng đoán của chúng tôi có thể gợi ý (tôi sẽ không và có thể không thể chứng minh điều đó bằng toán học, tôi không phải là nhà toán học) rằng nếu chúng ta giải phóng trục tiềm ẩn từ không gian được xác định bởi và , mặt phẳng, cho phép nó xoay một chút về phía chúng ta, chúng ta có thể tìm thấy một số vị trí tối ưu của nó - gọi nó là - theo đó hiệp phương sai được tái tạo hoàn hảo bởi các tải trọng nổi ( ) trong khi phương sai giải thích ( ) sẽ được lớn hơn , mặc dù không lớn như của các thành phần chính .X 2 F ∗ a ∗ 1 a ∗ 2 a ∗ 2 1 + a ∗ 2 2 g 2 1 + h 2 2 a 2 1 + a 2 2 FX1X2ĐỤ*một*1một*2một* 21+ một* 22g21+ h22một21+ một22ĐỤ
Tôi tin rằng điều kiện này có thể đạt được, đặc biệt trong trường hợp đó khi trục tiềm ẩn được kéo ra khỏi mặt phẳng theo cách kéo "mũ trùm" của hai mặt phẳng trực giao dẫn xuất, một mặt phẳng chứa trục và và cái kia chứa trục và . Sau đó, trục tiềm ẩn này, chúng tôi sẽ gọi yếu tố chung và toàn bộ "nỗ lực nguyên bản" của chúng tôi sẽ được đặt tên là phân tích nhân tố .X 1 X 2ĐỤ*X1X2
Trả lời "Cập nhật 2" của @ amo đối với PCA.
@amoeba là chính xác và có liên quan để nhớ lại định lý Eckart-Young, điều cơ bản cho PCA và các kỹ thuật bẩm sinh của nó (PCoA, biplot, phân tích tương ứng) dựa trên phân tích SVD hoặc phân tích eigen. Theo đó, trục chính đầu tiên của tối thiểu hóa tối đa - một đại lượng bằng , - cũng như . Ở đây là viết tắt của dữ liệu được sao chép bởi các trục chính . được biết là bằng , với là tải trọng biến củaX | | X - X k | | 2 t r ( X ′ X ) - t r ( X ′ k X k ) | | X ' X - X ' k X k | | 2 X k k X ′ k X k W k W ′ k W k kkX| | X- Xk| |2t r ( X'X ) - t r ( X'kXk)| | X'X - X'kXk| |2XkkX'kXkWkW'kWkk các thành phần.
Điều đó có nghĩa là tối thiểu hóa vẫn đúng nếu chúng ta chỉ xem xét các phần ngoài đường chéo của cả hai ma trận đối xứng? Hãy kiểm tra nó bằng cách thử nghiệm.| | X'X - X'kXk| |2
500 10x6
ma trận ngẫu nhiên đã được tạo (phân phối đồng đều). Đối với mỗi cột, sau khi căn giữa các cột của nó, PCA đã được thực hiện và hai ma trận dữ liệu được xây dựng lại tính toán: một được tái tạo bởi các thành phần từ 1 đến 3 ( trước, như thường lệ trong PCA) và cái còn lại được xây dựng lại bởi các thành phần 1, 2 và 4 (nghĩa là thành phần 3 đã được thay thế bằng thành phần 4 yếu hơn). Lỗi tái cấu trúc (tổng bình phương chênh lệch = khoảng cách Euclide bình phương) sau đó được tính cho một , cho . Hai giá trị này là một cặp để hiển thị trên biểu đồ phân tán.X k k | | X ' X - X ' k X k | | 2 X k X kXXkk| | X'X - X'kXk| |2XkXk
Các lỗi tái thiết được tính mỗi lần trong hai phiên bản: (a) toàn bộ ma trận và so; (b) chỉ các đường chéo của hai ma trận được so sánh. Như vậy, chúng ta có hai biểu đồ phân tán, với 500 điểm mỗi điểm.X ′ k X kX'XX'kXk
Chúng ta thấy rằng, trên biểu đồ "toàn ma trận", tất cả các điểm nằm trên y=x
đường thẳng. Điều đó có nghĩa là việc tái cấu trúc cho toàn bộ ma trận sản phẩm vô hướng luôn chính xác hơn bởi "1 đến 3 thành phần" so với "1, 2, 4 thành phần". Điều này phù hợp với định lý Eckart-Young nói: thành phần chính đầu tiên là những người tạo ra tốt nhất.k
Tuy nhiên, khi chúng ta nhìn vào âm mưu "chỉ đường chéo", chúng ta nhận thấy một số điểm bên dưới y=x
đường kẻ. Có vẻ như đôi khi việc tái cấu trúc các phần ngoài đường chéo bằng "1 đến 3 thành phần" còn tệ hơn "1, 2, 4 thành phần". Điều này tự động dẫn đến kết luận rằng thành phần chính đầu tiên thường không phải là bộ phận tốt nhất của các sản phẩm vô hướng chéo trong số các bộ phận có sẵn trong PCA. Ví dụ, lấy một thành phần yếu hơn thay vì mạnh hơn đôi khi có thể cải thiện việc tái cấu trúc.k
Vì vậy, ngay cả trong lĩnh vực của PCA , các thành phần chính cao cấp - những người thực hiện gần đúng phương sai tổng thể, như chúng ta biết, và thậm chí toàn bộ ma trận hiệp phương sai, - không nhất thiết phải xấp xỉ hiệp phương sai . Do đó tối ưu hóa tốt hơn những thứ được yêu cầu; và chúng tôi biết rằng phân tích nhân tố là kỹ thuật (hoặc trong số) có thể cung cấp nó.
Theo dõi "Cập nhật 3" của @ amoeba: PCA có tiếp cận FA khi số lượng biến tăng lên không? PCA có phải là sự thay thế hợp lệ của FA không?
Tôi đã tiến hành một mạng lưới các nghiên cứu mô phỏng. Một số ít cấu trúc yếu tố dân số, tải ma trận được xây dựng theo số ngẫu nhiên và được chuyển đổi thành ma trận hiệp phương sai dân số tương ứng của họ là , với là nhiễu chéo (duy nhất phương sai). Các ma trận hiệp phương sai này được thực hiện với tất cả các phương sai 1, do đó chúng bằng với các ma trận tương quan của chúng.R = A A ' + U 2 U 2MộtR = A A'+ U2Bạn2
Hai loại cấu trúc nhân tố đã được thiết kế - sắc nét và khuếch tán . Cấu trúc sắc nét là một cấu trúc đơn giản rõ ràng: tải trọng là "cao" của "thấp", không có trung gian; và (trong thiết kế của tôi) mỗi biến được tải cao chính xác bởi một yếu tố. Do đó, tương ứng giống như khối thông báo. Cấu trúc khuếch tán không phân biệt giữa tải cao và thấp: chúng có thể là bất kỳ giá trị ngẫu nhiên nào trong một ràng buộc; và không có mô hình trong tải được hình thành. Do đó, tương ứng mượt mà hơn. Ví dụ về ma trận dân số:RRR
Số lượng các yếu tố là hoặc . Số lượng biến được xác định bởi tỷ lệ k = số biến trên mỗi yếu tố ; k chạy các giá trị trong nghiên cứu.6 4 , 7 , 10 , 13 , 16264 , 7 , 10 , 13 , 16
Đối với mỗi dân số được xây dựng , hiện thực ngẫu nhiên của nó từ phân phối Wishart (dưới cỡ mẫu ) đã được tạo. Đây là các ma trận hiệp phương sai mẫu . Mỗi yếu tố được phân tích bởi FA (bằng cách trích trục chính) cũng như PCA . Ngoài ra, mỗi ma trận hiệp phương sai như vậy đã được chuyển đổi thành ma trận tương quan mẫu tương ứng cũng được phân tích theo yếu tố (bao thanh toán) theo cùng một cách. Cuối cùng, tôi cũng đã thực hiện bao thanh toán của ma trận "cha mẹ", chính hiệp phương sai dân số (= tương quan). Đo lường mức độ thỏa đáng lấy mẫu của Kaiser-Meyer-Olkin luôn ở mức trên 0,7.50R50n=200
Đối với dữ liệu có 2 yếu tố, các phân tích trích xuất 2, và 1 cũng như 3 yếu tố ("đánh giá thấp" và "đánh giá quá cao" về số lượng chính xác của các chế độ yếu tố). Đối với dữ liệu có 6 yếu tố, các phân tích tương tự trích xuất 6, và 4 cũng như 8 yếu tố.
Mục đích của nghiên cứu là chất lượng phục hồi hiệp phương sai / tương quan của FA so với PCA. Do đó, phần dư của các yếu tố ngoài đường chéo đã thu được. Tôi đã đăng ký phần dư giữa các phần tử được sao chép và phần tử ma trận dân số, cũng như phần dư giữa phần tử ma trận mẫu trước và phần tử mẫu được phân tích. Phần dư của loại 1 về mặt khái niệm thú vị hơn.
Kết quả thu được sau khi phân tích được thực hiện trên hiệp phương sai mẫu và trên ma trận tương quan mẫu có sự khác biệt nhất định, nhưng tất cả các kết quả chính xảy ra là tương tự nhau. Do đó, tôi chỉ thảo luận (hiển thị kết quả) về các phân tích "chế độ tương quan".
1. Nhìn chung đường chéo phù hợp bởi PCA vs FA
Đồ họa bên dưới cốt truyện, chống lại nhiều yếu tố khác nhau và k khác nhau, tỷ lệ trung bình dư đường chéo trung bình mang lại trong PCA với cùng một lượng mang lại trong FA . Điều này tương tự với những gì @amoeba đã thể hiện trong "Cập nhật 3". Các dòng trên cốt truyện thể hiện xu hướng trung bình trên 50 mô phỏng (tôi bỏ qua hiển thị các thanh lỗi st trên chúng).
(Lưu ý: kết quả là về bao thanh toán các ma trận tương quan mẫu ngẫu nhiên , chứ không phải về việc bao thanh toán ma trận dân số đối với họ: thật ngớ ngẩn khi so sánh PCA với FA về việc họ giải thích ma trận dân số như thế nào - FA sẽ luôn chiến thắng và nếu số lượng chính xác của các yếu tố được trích xuất, phần dư của nó sẽ gần như bằng không, và vì vậy tỷ lệ sẽ lao về phía vô tận.)
Bình luận các lô này:
- Khuynh hướng chung: khi k (số biến trên mỗi yếu tố) tăng tỷ lệ phụ tổng thể PCA / FA giảm dần về 1. Đó là, với nhiều biến hơn PCA tiếp cận FA trong việc giải thích các mối tương quan / hiệp phương sai. (Tài liệu của @amoeba trong câu trả lời của anh ấy.) Có lẽ luật gần đúng với các đường cong là ratio = exp (b0 + b1 / k) với b0 gần bằng 0.
- Tỷ lệ phần trăm còn lại lớn hơn wrt mẫu trừ đi mẫu sao chép (mẫu trái) so với số dư wrt dân số trừ đi mẫu sao chép lại (lô phải). Đó là (tầm thường), PCA kém hơn FA trong việc phù hợp với ma trận được phân tích ngay lập tức. Tuy nhiên, các dòng trên ô bên trái có tốc độ giảm nhanh hơn, do đó, với k = 16, tỷ lệ này cũng nằm dưới 2, vì nó nằm trên ô bên phải.
- Với dân số còn lại trừ đi mẫu sao chép, xu hướng không phải lúc nào cũng lồi hoặc thậm chí là đơn điệu (khuỷu tay bất thường được hiển thị khoanh tròn). Vì vậy, miễn là bài phát biểu nói về việc giải thích một ma trận dân số của các hệ số thông qua bao thanh toán một mẫu, việc tăng số lượng biến không thường xuyên đưa PCA đến gần hơn với chất lượng fittinq của nó, mặc dù xu hướng là có.
- Tỷ lệ này lớn hơn đối với m = 2 yếu tố so với m = 6 yếu tố trong dân số (đường màu đỏ đậm nằm dưới đường màu xanh đậm). Điều đó có nghĩa là với nhiều yếu tố hoạt động trong dữ liệu, PCA sẽ sớm bắt kịp FA. Ví dụ, trên biểu đồ bên phải k = 4 tỷ lệ sinh ra khoảng 1,7 cho 6 yếu tố, trong khi giá trị tương tự cho 2 yếu tố đạt được tại k = 7.
- Tỷ lệ này cao hơn nếu chúng ta trích xuất nhiều yếu tố hơn so với số lượng yếu tố thực sự. Đó là, PCA chỉ kém hơn một chút so với FA nếu khi trích xuất chúng ta đánh giá thấp số lượng các yếu tố; và nó sẽ mất nhiều hơn nếu số lượng các yếu tố là chính xác hoặc được đánh giá quá cao (so sánh các dòng mỏng với các dòng đậm).
- Có một hiệu ứng thú vị về độ sắc nét của cấu trúc nhân tố chỉ xuất hiện nếu chúng ta xem xét phần dư dân số trừ đi mẫu được tái tạo: so sánh các ô màu xám và màu vàng ở bên phải. Nếu các yếu tố dân số tải các biến khác nhau, các đường màu đỏ (m = 6 yếu tố) chìm xuống đáy. Đó là, trong cấu trúc khuếch tán (chẳng hạn như tải các số hỗn loạn) PCA (được thực hiện trên một mẫu) chỉ kém hơn FA trong việc tái cấu trúc các mối tương quan dân số - ngay cả dưới k nhỏ, với điều kiện là số lượng các yếu tố trong dân số không rất nhỏ. Đây có lẽ là điều kiện khi PCA gần gũi nhất với FA và được bảo hành nhiều nhất như là công cụ thay thế máy quét. Trong khi với sự hiện diện của cấu trúc nhân tố sắc bén, PCA không quá lạc quan trong việc tái cấu trúc các mối tương quan dân số (hay hiệp phương sai): nó chỉ tiếp cận FA trong viễn cảnh k lớn.
2. Mức độ phù hợp với yếu tố của PCA so với FA: phân phối phần dư
Đối với mọi thí nghiệm mô phỏng trong đó bao thanh toán (bằng PCA hoặc FA) của 50 ma trận mẫu ngẫu nhiên từ ma trận dân số đã được thực hiện, phân phối phần dư "tương quan dân số trừ đi được tái tạo (bằng cách bao thanh toán) tương quan mẫu" được lấy cho mọi yếu tố tương quan chéo. Các bản phân phối tuân theo các mẫu rõ ràng và các ví dụ về các bản phân phối điển hình được mô tả ngay bên dưới. Kết quả sau bao thanh toán PCA là bên trái màu xanh và kết quả sau bao thanh toán FA là bên phải màu xanh lá cây.
Phát hiện chính là
- Được phát âm, theo cường độ tuyệt đối, các mối tương quan dân số được PCA khôi phục một cách không thỏa đáng: các giá trị được sao chép được đánh giá quá cao theo độ lớn.
- Nhưng sự thiên vị biến mất khi k (số lượng biến số thành tỷ lệ các yếu tố) tăng lên. Trên pic, khi chỉ có k = 4 biến cho mỗi yếu tố, phần dư của PCA lan truyền trong offset từ 0. Điều này được thấy cả khi tồn tại 2 yếu tố và 6 yếu tố. Nhưng với k = 16, phần bù hầu như không được nhìn thấy - nó gần như biến mất và PCA phù hợp với phương pháp phù hợp FA. Không có sự khác biệt về chênh lệch (phương sai) của phần dư giữa PCA và FA được quan sát.
Bức tranh tương tự cũng được nhìn thấy khi số lượng các yếu tố được trích xuất không khớp với số lượng các yếu tố thực sự: chỉ có phương sai của phần dư thay đổi.
Phân phối hiển thị ở trên trên nền màu xám liên quan đến các thí nghiệm với sắc nét (đơn giản) cấu trúc yếu tố hiện diện trong dân số. Khi tất cả các phân tích được thực hiện trong tình huống cấu trúc yếu tố dân số khuếch tán , người ta thấy rằng sự thiên vị của PCA biến mất không chỉ với sự gia tăng của k, mà còn với sự gia tăng của m (số lượng các yếu tố). Vui lòng xem phần đính kèm nền màu vàng được giảm xuống cho cột "6 yếu tố, k = 4": hầu như không có độ lệch từ 0 được quan sát cho kết quả PCA (phần bù chưa xuất hiện với m = 2, không hiển thị trên pic ).
Nghĩ rằng những phát hiện được mô tả là quan trọng, tôi quyết định kiểm tra các phân phối dư đó sâu hơn và vẽ các biểu đồ tán xạ của phần dư (trục Y) so với giá trị phần tử (tương quan dân số) (trục X). Những phân tán này từng kết quả kết hợp của tất cả (50) mô phỏng / phân tích. Dòng phù hợp LOESS (50% điểm địa phương sẽ sử dụng, nhân Epanechnikov) được tô sáng. Tập hợp các ô đầu tiên dành cho trường hợp cấu trúc nhân tố sắc nét trong dân số (do đó tính chính xác của các giá trị tương quan là rõ ràng):
Bình luận:
- Chúng ta thấy rõ xu hướng phục hồi (được mô tả ở trên), đặc trưng của PCA là đường xiên, xu hướng tiêu cực: lớn trong tương quan dân số giá trị tuyệt đối được PCA đánh giá quá cao của bộ dữ liệu mẫu. FA là không thiên vị (hoàng thổ ngang).
- Khi k phát triển, sự thiên vị của PCA giảm dần.
- PCA thiên vị bất kể có bao nhiêu yếu tố trong dân số: với 6 yếu tố tồn tại (và 6 yếu tố được trích xuất tại các phân tích), nó cũng bị lỗi tương tự như với 2 yếu tố tồn tại (2 yếu tố được trích xuất).
Nhóm ô thứ hai dưới đây dành cho trường hợp cấu trúc nhân tố khuếch tán trong dân số:
Một lần nữa chúng tôi quan sát sự thiên vị của PCA. Tuy nhiên, trái ngược với trường hợp cấu trúc nhân tố sắc nét, xu hướng giảm dần khi số lượng yếu tố tăng lên: với 6 yếu tố dân số, đường hoàng thổ của PCA không quá xa so với chỉ dưới 4. Đây là những gì chúng tôi đã thể hiện bởi " biểu đồ màu vàng "trước đó.
Một hiện tượng thú vị trên cả hai bộ phân tán là các đường hoàng thổ cho PCA có dạng cong S. Độ cong này cho thấy dưới các cấu trúc yếu tố dân số khác (tải trọng) do tôi (tôi đã kiểm tra) xây dựng ngẫu nhiên, mặc dù mức độ của nó thay đổi và thường yếu. Nếu theo hình chữ S thì PCA đó bắt đầu biến dạng tương quan nhanh chóng khi chúng bật từ 0 (đặc biệt là dưới k nhỏ), nhưng từ một số giá trị trên - khoảng 0,30 hoặc 0,40 - nó ổn định. Tôi sẽ không suy đoán tại thời điểm này vì lý do có thể của hành vi đó, mặc dù tôi tin rằng "hình sin" bắt nguồn từ bản chất tương quan của phép đo.
Phù hợp bởi PCA vs FA: Kết luận
1
Ảnh hưởng của cấu trúc yếu tố sắc nét đến khả năng phù hợp tổng thể của PCA chỉ rõ ràng miễn là phần còn lại "dân số trừ mẫu được sao chép" được xem xét. Do đó, người ta có thể bỏ lỡ việc nhận ra nó bên ngoài một thiết lập nghiên cứu mô phỏng - trong một nghiên cứu quan sát về một mẫu mà chúng ta không có quyền truy cập vào các phần dư quan trọng này.
Không giống như phân tích nhân tố, PCA là một công cụ ước tính sai lệch (tích cực) về mức độ tương quan dân số (hay hiệp phương sai) cách xa 0. Tuy nhiên, độ lệch của PCA giảm khi số tỷ lệ biến / số yếu tố dự kiến tăng lên. Sự thiên vị cũng giảm khi số lượng các yếu tố trong dân số tăng lên, nhưng xu hướng sau này bị cản trở dưới một cấu trúc yếu tố sắc nét hiện nay.
Tôi sẽ nhận xét rằng PCA phù hợp với độ lệch và ảnh hưởng của cấu trúc sắc nét lên nó cũng có thể được phát hiện khi xem xét phần dư "mẫu trừ đi mẫu được sao chép"; Tôi chỉ đơn giản là bỏ qua hiển thị kết quả như vậy bởi vì chúng dường như không thêm ấn tượng mới.
Tôi rất dự kiến, rộng Lời khuyên cuối cùng của tôi có thể là không sử dụng PCA thay vì FA cho các mục đích phân tích nhân tố điển hình (nghĩa là có 10 hoặc ít hơn trong dân số) trừ khi bạn có các biến số nhiều hơn 10 lần so với các yếu tố. Và càng ít các yếu tố thì nghiêm trọng hơn là tỷ lệ cần thiết. Tôi sẽ tiếp tục không khuyên bạn sử dụng PCA ở vị trí của FA ở tất cả bất cứ khi nào dữ liệu với thiết lập tốt, kết cấu yếu tố sắc nét được phân tích - chẳng hạn như khi phân tích yếu tố được thực hiện để xác nhận được phát triển hoặc đã đưa ra thử nghiệm tâm lý hoặc câu hỏi với các cấu trúc khớp nối / thang . PCA có thể được sử dụng như một công cụ ban đầu, lựa chọn sơ bộ các mặt hàng cho một công cụ đo tâm lý.
Hạn chế của nghiên cứu. 1) Tôi chỉ sử dụng phương pháp PAF trích xuất yếu tố. 2) Cỡ mẫu đã được cố định (200). 3) Dân số bình thường được giả định trong việc lấy mẫu ma trận mẫu. 4) Đối với cấu trúc sắc nét, đã được mô hình hóa số lượng biến bằng nhau cho mỗi yếu tố. 5) Xây dựng hệ số tải nhân tố tôi đã mượn chúng từ phân phối gần như đồng đều (đối với cấu trúc sắc nét - chính thống, tức là đồng phục 3 mảnh). 6) Có thể có sự giám sát trong kỳ thi tức thời này, tất nhiên, như bất cứ nơi nào.
Chú thích . PCA sẽ bắt chước các kết quả của FA và trở thành công cụ tương đương của các mối tương quan khi - như đã nói ở đây1 - các biến lỗi của mô hình, được gọi là các yếu tố duy nhất , trở nên không tương quan. FA tìm kiếm để làm cho họ không tương quan, nhưng PCA không, họ có thể xảy ra được không tương quan trong PCA. Điều kiện chính khi nó có thể xảy ra là khi số lượng biến trên một số yếu tố chung (các thành phần được giữ làm yếu tố chung) là lớn.
Hãy xem xét các bức ảnh sau đây (nếu trước tiên bạn cần học cách hiểu chúng, vui lòng đọc câu trả lời này ):
m
Bạnp
Xp
Bạnp-m
p
Xm=1
P1p=2
X1X2Bạn1Bạn2r = - 1
X3Bạn
Bạn s sẽ trải rộng không gian 3d. Với 5, 5 đến nhịp 4d, v.v ... Phòng cho nhiều góc đồng thời đạt được gần 90 độ sẽ mở rộng. Điều đó có nghĩa là phòng cho PCA tiếp cận FA trong khả năng phù hợp với các tam giác chéo của ma trận tương quan cũng sẽ mở rộng.
BạnX
rX1X2= = a1một2- bạn1bạn2mộtXP1P1bạnBạnP2P1một1một2rX1X2