Làm thế nào để giải thích chính xác một phân tích song song trong phân tích nhân tố khám phá?


8

Một số bài báo khoa học báo cáo kết quả phân tích song song phân tích nhân tố trục chính theo cách không phù hợp với hiểu biết của tôi về phương pháp luận. Tôi đang thiếu gì? Tôi sai hay là họ.

Thí dụ:

  • Dữ liệu: Hiệu suất của 200 cá nhân con người đã được quan sát trên 10 nhiệm vụ. Đối với mỗi cá nhân và mỗi nhiệm vụ, một người có điểm hiệu suất. Câu hỏi bây giờ là xác định có bao nhiêu yếu tố là nguyên nhân cho hiệu suất của 10 nhiệm vụ.
  • Phương pháp: phân tích song song để xác định số lượng các yếu tố cần giữ lại trong phân tích yếu tố trục chính.
  • Ví dụ cho kết quả được báo cáo: Phân tích song song trên mạng cho thấy rằng chỉ các yếu tố có giá trị riêng từ 2,21 trở lên mới được giữ lại

Điều đó là vô nghĩa, phải không?

Từ bài báo gốc của Horn (1965) và các hướng dẫn như Hayton et al. (2004) Tôi hiểu rằng phân tích song song là sự thích ứng của tiêu chí Kaiser (eigenvalue> 1) dựa trên dữ liệu ngẫu nhiên. Tuy nhiên, việc điều chỉnh không phải là thay thế ngưỡng 1 bằng một số cố định khác mà là giá trị ngưỡng riêng cho từng yếu tố (và phụ thuộc vào kích thước của tập dữ liệu, tức là 200 lần 10 điểm). Nhìn vào các ví dụ của Horn (1965) và Hayton et al. (2004) và đầu ra của các hàm R fa.pool trong gói tâm lýsong song trong nFactorsgói, tôi thấy rằng phân tích song song tạo ra một đường cong dốc xuống trong biểu đồ Scree để so sánh với các giá trị riêng của dữ liệu thực. Giống như hơn Giữ lại yếu tố đầu tiên nếu giá trị riêng của nó là> 2,21; còn giữ lại lần thứ hai nếu giá trị riêng của nó> 1,65; Giáo chí.

Có bất kỳ thiết lập hợp lý, bất kỳ trường phái tư tưởng, hoặc bất kỳ phương pháp nào sẽ đưa ra phân tích song song của YouTube cho thấy rằng chỉ các yếu tố có giá trị riêng từ 2,21 trở lên mới được giữ lại đúng hay không?

Người giới thiệu:

Hayton, JC, Allen, DG, Scarpello, V. (2004). Các quyết định duy trì nhân tố trong phân tích nhân tố khám phá: một hướng dẫn về phân tích song song. Phương pháp nghiên cứu tổ chức, 7 (2): 191-205.

Sừng, JL (1965). Một lý do và kiểm tra số lượng các yếu tố trong phân tích nhân tố. Tâm lý học, 30 (2): 179-185.


1
Ngẫu nhiên, Hayton và các cộng sự cần thiết rằng hình thức phân phối của dữ liệu không tương quan được sử dụng để tạo ra giá trị riêng trung bình để ước tính "sai lệch lấy mẫu" đã được kiểm tra và từ chối nghiêm trọng trong Dinno, A. (2009). Khám phá sự nhạy cảm của phân tích song song của Horn đối với dạng phân phối dữ liệu mô phỏng. Nghiên cứu hành vi đa biến , 44 (3): 362 Tiết388.
Alexis

1
Ngoài ra, tình cờ thấy gói phân tích song song của tôi parancho R (trên CRAN) và cho Stata (trong loại Stata findit paran).
Alexis

Câu trả lời:


9

Có hai cách tương đương để thể hiện tiêu chí phân tích song song. Nhưng trước tiên tôi cần quan tâm đến một sự hiểu lầm phổ biến trong văn học.

Sự hiểu lầm
Quy tắc được gọi là Kaiser (Kaiser thực sự không thích quy tắc này nếu bạn đọc bài viết năm 1960 của ông) các giá trị bản địa lớn hơn một được giữ lại để phân tích thành phần chính . Sử dụng cái gọi là quy tắc eigenvalues ​​lớn hơn 0 được giữ lại để phân tích nhân tố chính / anlaysis yếu tố chung . Sự nhầm lẫn này đã phát sinh trong nhiều năm qua vì một số tác giả đã cẩu thả trong việc sử dụng nhãn "phân tích nhân tố" để mô tả "phân tích thành phần chính", khi chúng không giống nhau.

Xem nhẹ nhàng làm rõ ứng dụng phân tích song song của Horn vào phân tích thành phần chính Phân tích nhân tố cho phép toán của nó nếu bạn cần thuyết phục về điểm này.

Tiêu chí duy trì phân tích song song
Để phân tích thành phần chính dựa trên ma trận tương quan của số biến, bạn có một số lượng. Trước tiên, bạn có các giá trị riêng được quan sát từ sự xuất hiện của ma trận tương quan của dữ liệu của bạn, . Thứ hai, bạn có giá trị riêng trung bình từ eigendecompositions của các ma trận tương quan của "một số lượng lớn" của ngẫu nhiên (không tương quan) tập hợp dữ liệu của cùng một và như là của riêng của bạn, .bước sóng 1 , ... , λ p n p ˉ λ r 1 , ... , ˉ λ r ppλ1,,λpnpλ¯1r,,λ¯pr

Horn cũng định khung các ví dụ của mình về "độ lệch lấy mẫu" và ước tính độ lệch này cho eigenvalue (để phân tích thành phần chính) là . Thiên vị này sau đó có thể được sử dụng để điều chỉnh giá trị riêng quan sát như sau: ε q = ˉ λ r q - 1 λ adj q = λ q - ε qqthεq=λ¯qr1λqadj=λqεq

Với các đại lượng này, bạn có thể biểu thị tiêu chí duy trì cho giá trị bản địa quan sát của phân tích song song thành phần chính theo hai cách tương đương về mặt toán học:qth

λqadj{>1Retain.1Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

Còn phân tích nhân tố chính / phân tích nhân tố chung thì sao? Ở đây chúng ta phải nhớ rằng độ lệch giá trị trung bình tương ứng: (trừ số 0 vì quy tắc Kaiser cho phép xuất tinh của ma trận tương quan với đường chéo được thay thế bởi các cộng đồng là để giữ giá trị riêng lớn hơn 0). Do đó, đây .εq=λ¯qr0=λ¯qrλqadj=λqλ¯qr

Do đó, tiêu chí duy trì cho phân tích nhân tố chính / phân tích nhân tố chung nên được thể hiện như sau:

λqadj{>0Retain.0Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

Lưu ý rằng hình thức thứ hai thể hiện tiêu chí duy trì phù hợp cho cả phân tích thành phần chính và phân tích nhân tố chung (nghĩa là vì định nghĩa của thay đổi tùy thuộc vào các thành phần / yếu tố, nhưng hình thức thứ hai của tiêu chí duy trì không được thể hiện dưới dạng ).λqadjλqadj

một điều nữa ...
Cả phân tích thành phần chính và phân tích nhân tố chính / phân tích nhân tố chung có thể dựa trên ma trận hiệp phương sai thay vì ma trận tương quan. Bởi vì điều này thay đổi các giả định / định nghĩa về phương sai tổng và phổ biến, nên chỉ sử dụng các hình thức thứ hai của tiêu chí duy trì khi sử dụng phân tích của một người trên ma trận hiệp phương sai.


1
Tuyệt quá! Phần quan trọng đầu tiên với tôi là tiêu chí duy trì của bạn sử dụng , tức là một giá trị giới hạn cụ thể cho từng yếu tố . Phân tích song song câu nghi vấn cho thấy chỉ nên giữ lại các yếu tố có giá trị riêng từ 2,21 trở lên bằng với . Điều này là không thể. Đối với các hàm sinh tổng hợp thành phần chính cộng với , để phân tích nhân tố thành . Một không phân biệt chỉ tồn tại đối với dữ liệu chưa được chỉnh sửa đầy đủ ( ) và sau đó là 0 (fa) hoặc 1 (pca). Chính xác? qq ˉ bước sóng r q =2.21p<p ˉ bước sóng rqnλ¯qrq q λ¯qr=2.21p<pλ¯rqn
jhg

Tôi đã đọc bài viết của bạn "Nhẹ nhàng làm rõ ..." trước đây và rất thích nó. Trong bài đăng này, bạn nêu "sử dụng cái gọi là các giá trị riêng quy tắc Kaiser lớn hơn 0 được giữ lại để phân tích nhân tố chính / anlaysis yếu tố chung" và trong bài báo có một nhận xét tương tự. Từ toán học, nó trực quan và hoàn toàn có ý nghĩa - tôi tự hỏi tại sao tôi không bắt gặp điều này trước đây. Có giấy tờ / sách nào khác về vấn đề này không, hay là "Nhẹ nhàng làm rõ ..." là người đầu tiên nhẹ nhàng làm rõ rằng số 0 là tài liệu tham khảo phù hợp để phân tích nhân tố chính (nếu ai đó sử dụng tiêu chí Kaiser)?
jhg

2
Có thể: họ có thể chỉ đơn giản có nghĩa là giá trị nhỏ nhất trong số các giá trị bản địa quan sát lớn hơn (tức là những cái họ giữ lại) là 2,21. Có một cảnh báo tôi sẽ thêm: hình thức đầu tiên của tiêu chí duy trì phải được sửa đổi khi sử dụng ma trận hiệp phương sai, . Giả định khi sử dụng là tổng phương sai (PCA) bằng tổng phương sai quan sát được của dữ liệu và dịch thành : con số này có thể là 2,21. ΣΣ>1>dấu vết(Σ)/pλ¯rΣΣ>1>trace(Σ)/p
Alexis

@jhg Kaiser đã viết "[Guttman's] giới hạn dưới mạnh nhất trên toàn cầu đòi hỏi chúng ta phải tìm thấy số lượng gốc tiềm ẩn dương của ma trận tương quan quan sát được với bội số bình phương theo đường chéo." Nhưng Guttman cũng đã viết về ma trận tương quan khi mô tả sự thống nhất là giới hạn quan trọng của các giá trị riêng của R (không phải là duy nhất R) (từ cuối trang 154 đến đầu trang 155), mặc dù ông không rút ra logic cho R -Đặc biệt, anh vẫy tay với nó sớm hơn ở giữa trang 150.
Alexis

4

Có, có thể có giá trị là 2,21 nếu cỡ mẫu không quá lớn (hoặc đủ lớn ...). Trên thực tế, đây là động lực thúc đẩy sự phát triển của Phân tích song song như là một sự gia tăng cho quy tắc eigenvalue 1.

Tôi trích dẫn Valle 1999 về câu trả lời này và đã in nghiêng phần nói trực tiếp đến câu hỏi của bạn.

Lựa chọn số lượng các thành phần chính: Phương sai của tiêu chí lỗi tái thiết với so sánh với các phương pháp khác † Sergio Valle, Weihua Li, và S. Joe Qin * Nghiên cứu hóa học công nghiệp & kỹ thuật 1999 38 (11), 4389-4401

Phân tích song song . Phương thức PA về cơ bản xây dựng các mô hình PCA cho hai ma trận: một là ma trận dữ liệu gốc và hai là ma trận dữ liệu không tương thích với cùng kích thước với ma trận gốc. Phương pháp này được phát triển ban đầu bởi Horn để tăng cường hiệu suất của bài kiểm tra Scree. Khi các giá trị riêng cho mỗi ma trận được vẽ trong cùng một hình, tất cả các giá trị trên giao điểm thể hiện thông tin quá trình và các giá trị dưới giao lộ được coi là nhiễu. Do giao điểm này, phương pháp phân tích song song không mơ hồ trong việc lựa chọn số lượng PC. Đối với một số lượng lớn các mẫu, giá trị riêng cho ma trận tương quan của các biến không tương quan là 1. Trong trường hợp này, phương thức PA giống hệt với phương pháp AE. Tuy nhiên, khi các mẫu được tạo với số lượng mẫu hữu hạn, các giá trị riêng ban đầu vượt quá 1, trong khi các giá trị riêng cuối cùng dưới 1. Đó là lý do tại sao Horn đề xuất so sánh các giá trị riêng của ma trận tương quan với các biến không tương quan với các ma trận dữ liệu thực dựa trên cùng cỡ mẫu.


Câu hỏi đặt ra là liệu giá trị duy nhất của 2,21 có thể hợp lý hay không. Là phần in nghiêng trong trích dẫn của bạn từ Valle et al. cho thấy với số lượng quan sát hữu hạn, theo tôi hiểu sẽ luôn có một loạt các giá trị bản địa giảm dần. Do đó, đối với mỗi yếu tố từ dữ liệu gốc, có một giá trị riêng khác nhau từ phân tích song song để so sánh. Khi kích thước mẫu trở nên lớn (vài nghìn cá thể), giá trị riêng hội tụ đến 1. Trong trường hợp đó tôi có thể hiểu một so sánh duy nhất, nhưng chỉ ở cấp 1.
jhg

Không phải 2.21 ở đây có nghĩa là cho tập dữ liệu này và phương pháp được sử dụng (vì vậy sự kết hợp đó) 2.21 là phần bị cắt dưới đây mà giá trị riêng quá nhỏ? Tôi không chắc ý của bạn là "giá trị duy nhất". Bạn có nghĩa là một quy tắc chung, như quy tắc eigenvalue 1? Việc cắt là khác nhau cho mỗi phân tích song song điển hình.
Deathkill14

Tôi hiểu rằng phân tích song song phụ thuộc vào số lượng biến (trong ví dụ của tôi ở trên "10 nhiệm vụ") và số lượng quan sát (200 trong ví dụ). Do đó, nó rất cụ thể cho một tập dữ liệu riêng lẻ và không thể có một quy tắc chung như "không sử dụng eigenvalue 1, sử dụng eigenvalue 2.21". Điều đó sẽ là vô nghĩa cho chắc chắn. Nhưng đối với một ví dụ cụ thể với 200 quan sát trên 10 biến và do đó, 1 đến 10 yếu tố. Có thể là một phân tích song song đề nghị giữ lại các yếu tố có giá trị riêng lớn hơn 2,21 độc lập cho dù yếu tố đó là thứ nhất, thứ hai, thứ ba, ...?
jhg

Ý tưởng của giá trị ngưỡng (giả sử 1 hoặc 2,21) là bên dưới giá trị đó, biến thể trong một yếu tố thực chất là nhiễu (về cơ bản là nhiễu vì đó là giá trị riêng cơ sở từ ma trận ngẫu nhiên). Thông thường, các yếu tố được sắp xếp từ giá trị riêng cao nhất đến thấp nhất, nhưng điều đó có lẽ quan trọng chủ yếu là khả năng diễn giải. Vì vậy, "thứ ba thứ nhất" không nhất thiết phải cố định trong đá. Trong mọi trường hợp, các yếu tố có giá trị riêng lớn hơn 2,21 trong trường hợp của bạn được giả định là chứa nhiều thông tin hơn nhiễu. Giữ chúng.
Deathkill14

2

Ví dụ của bạn chắc chắn không rõ ràng, nhưng nó cũng có thể không vô nghĩa. Tóm lại, hãy xem xét khả năng ví dụ dựa trên quy tắc quyết định của nó dựa trên giá trị riêng của yếu tố mô phỏng đầu tiên lớn hơn hệ số thực của cùng một số yếu tố. Đây là một ví dụ khác trong :

d8a=data.frame(y=rbinom(99,1,.5),x=c(rnorm(50),rep(0,49)),z=rep(c(1,0),c(50,49)))
require(psych);fa.parallel(d8a)

Dữ liệu là ngẫu nhiên và chỉ có ba biến số, do đó, một yếu tố thứ hai chắc chắn sẽ không có ý nghĩa và đó là những gì phân tích song song chỉ ra. * Kết quả cũng chứng thực những gì @Alexis nói về " Sự hiểu lầm ".

Nói rằng tôi diễn giải phân tích này như sau: Phân tích song song gợi ý rằng chỉ các yếu tố [ không phảicác thành phần] có giá trị riêng từ 1,2E-6 trở lên nên được giữ lại. Điều này có ý nghĩa nhất định bởi vì đó là giá trị của giá trị riêng được mô phỏng đầu tiên lớn hơn giá trị riêng "thực" và tất cả các giá trị riêng sau đó nhất thiết phải giảm. Đó là một cách khó xử để báo cáo kết quả đó, nhưng ít nhất phù hợp với lý do rằng người ta nên nhìn rất hoài nghi về bất kỳ yếu tố (hoặc thành phần) nào với các giá trị riêng không lớn hơn nhiều so với giá trị riêng tương ứng từ dữ liệu mô phỏng, không tương thích. Đây phải là trường hợp nhất quán sau phiên bản đầu tiên trên biểu đồ scree nơi giá trị riêng được mô phỏng vượt quá giá trị thực, tương ứng. Trong ví dụ trên, yếu tố thứ ba mô phỏng nhỏ hơn một chút so với yếu tố thứ ba "thực",


* Trong trường hợp này, R nói, "Phân tích song song cho thấy số lượng yếu tố = 1 và số lượng thành phần = 2", nhưng hy vọng hầu hết chúng ta biết không tin tưởng phần mềm của mình để giải thích âm mưu của chúng tôi ... Tôi chắc chắn sẽ không giữ lại thành phần thứ hai chỉ vì nó lớn hơn nhiều so với thành phần mô phỏng thứ hai.


1
Tuyệt vời, ý tưởng sáng tạo làm thế nào để giải thích câu. Tôi đã xem xét nó nhiều hơn ngắn gọn. Đó không phải là trường hợp.
jhg

Oy. Nghe có vẻ như một bài báo kỳ lạ mà bạn đang làm việc với ...
Nick Stauner
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.