Có phải luôn luôn tốt hơn để trích xuất nhiều yếu tố khi chúng tồn tại?


11

Không giống như phân tích thành phần chính, các giải pháp cho các mô hình phân tích nhân tố không nhất thiết phải được lồng nhau. Nghĩa là, các tải (ví dụ) cho yếu tố đầu tiên không nhất thiết phải giống hệt nhau khi chỉ có yếu tố đầu tiên được trích xuất so với khi hai yếu tố đầu tiên là.

Với ý nghĩ đó, hãy xem xét một trường hợp bạn có một tập hợp các biến số có tương quan cao và (theo kiến ​​thức lý thuyết về nội dung của chúng) nên được điều khiển bởi một yếu tố duy nhất. Hãy tưởng tượng rằng các phân tích nhân tố khám phá (theo bất kỳ số liệu nào bạn thích: phân tích song song, biểu đồ scree, giá trị eigen> 1, v.v.) gợi ý mạnh mẽ rằng có yếu tố: Một yếu tố chính lớn và yếu tố phụ nhỏ. Bạn quan tâm đến việc sử dụng các biến số của bảng kê khai và giải pháp nhân tố để ước tính (nghĩa là lấy điểm yếu tố) cho các yếu tố đầu tiên. Trong kịch bản này, nó sẽ tốt hơn để:2

  1. Điều chỉnh mô hình nhân tố để chỉ trích xuất yếu tố và nhận điểm yếu tố (v.v.) hoặc1
  2. phù hợp với một mô hình nhân tố để trích xuất cả hai yếu tố, lấy điểm yếu tố cho các yếu tố, nhưng vứt bỏ / bỏ qua điểm số cho yếu tố thứ hai?

Đối với cái nào là thực hành tốt hơn, tại sao? Có nghiên cứu nào về vấn đề này không?


Người ta không nên chỉ dựa vào các thiết bị heuristic tiền phân tích khi chọn số lượng các yếu tố để trích xuất. Tái sản xuất các mối tương quan (tốt hơn bao nhiêu khi bạn trích xuất 2 yếu tố thay vì 1?) Làm thế nào các phần dư tương quan được phân phối trong giải pháp này và giải pháp đó? (chúng thường phải đồng nhất hoặc bình thường, không có đuôi phải dài / mập). Nếu dữ liệu là bình thường, các thử nghiệm về sự phù hợp và tiêu chuẩn của tải trọng là có thể tính toán được (với trích xuất ML). Dựa trên tất cả những gì cộng với khả năng diễn giải, người ta có thể quyết định liệu cách (1) hay (2) tốt hơn trong trường hợp hiện tại.
ttnphns 8/10/2015

(tt) Cuối cùng, chỉ có mẫu mới / FA xác nhận mới có thể phán đoán tình trạng khó xử đến cùng. Một khái niệm, tuy nhiên. Nếu yếu tố thứ 2 thực sự yếu (tải SS nhỏ sau khi trích xuất) thì tôi không hy vọng hai giải pháp (và do đó điểm yếu tố của yếu tố 1) sẽ khác nhau rất nhiều. (Tôi đang nói điều đó mà không tự tin lắm vì tôi đang bình luận mà không cần đại tu. Nhưng, về mặt logic, nếu mặt phẳng nhân tố đã sẵn sàng thoái hóa thành dòng, kết quả sẽ gần như chỉ với dòng ...)
ttnphns

Tiêu đề Q Is is always better to extract more factors when they exist?không rõ ràng lắm. Luôn luôn tốt hơn để trích xuất càng nhiều càng tồn tại. Thiếu hoặc quá mức cả hai cấu trúc tiềm ẩn "thực sự" do tính chất đa biến và không lồng nhau của phân tích được đề cập bởi bạn. Vấn đề là chúng ta không biết chính xác có bao nhiêu yếu tố trong dữ liệu của mình. Và liệu những dữ liệu này có nhiều như dân số có.
ttnphns

1
@ttnphns, tôi nghĩ bình luận cuối cùng của bạn là trung tâm của câu hỏi. Giả sử bất kỳ phương pháp nào bạn muốn thuyết phục bạn rằng thực sự có 2 yếu tố, 1 trong số đó chiếm gần như tất cả các phương sai được chia sẻ, lên đến & bao gồm CFA trên một mẫu mới. Sự phù hợp w / 2 là tốt hơn đáng kể, nhưng tốt hơn. Đây là một ví dụ giả mạo & giả tạo nhằm mục đích làm nổi bật vấn đề. Vấn đề cơ bản cũng có thể là sử dụng 2 trên 5.
gung - Tái lập Monica

1
Câu hỏi là, vì các giải pháp không được lồng nhau, cách tiếp cận nào cho bạn ước tính tốt hơn về điểm số của từng người tham gia về biến tiềm ẩn, & tại sao? Là chỉ sử dụng 1 thành kiến, nó có khác với giá trị thực hay cả hai không? Điều đó xảy ra bởi vì chỉ sử dụng 1 là "thiếu"? điều đó chính xác có nghĩa là gì? Có thể đặc trưng cho bản chất của sự biến dạng? Ngoài ra, tôi có thể đã dự kiến ​​rằng việc trích xuất chỉ 1 cho phép phân tích tập trung tất cả các mức độ tự do của nó để có được số 1 chính xác nhất có thể.
gung - Tái lập Monica

Câu trả lời:


5

Vấn đề bạn đang ám chỉ là chủ đề 'gần như không có sự khác biệt' khi xây dựng các công cụ kiểm tra tâm lý, đã được thảo luận trong phần phụ đề khá nhiều vào những năm 80. Cảm hứng tồn tại trong quá khứ bởi vì các học viên muốn sử dụng các mô hình lý thuyết phản ứng vật phẩm truyền thống (IRT) cho các mặt hàng của họ, và tại thời điểm các mô hình IRT này chỉ giới hạn trong việc đo lường các đặc điểm không theo chiều hướng. Vì vậy, kiểm tra tính đa chiều đã được hy vọng là một mối phiền toái mà (hy vọng) có thể tránh hoặc bỏ qua. Đây cũng là điều dẫn đến việc tạo ra các kỹ thuật phân tích song song trong phân tích nhân tố (Drasgow và Parsons, 1983) và các phương pháp DETECT.

Hậu quả của việc bỏ qua các đặc điểm / yếu tố bổ sung, ngoài việc phù hợp rõ ràng với mô hình sai với dữ liệu (nghĩa là bỏ qua thông tin về sự không phù hợp của mô hình tiềm năng; mặc dù điều đó có thể là tầm thường), là các ước tính về yếu tố chi phối sẽ trở nên sai lệch và do đó kém hiệu quả. Những kết luận này tất nhiên phụ thuộc vào cách tính chất của các tính trạng bổ sung (ví dụ: chúng có tương quan với kích thước chính không, chúng có tải trọng mạnh không, có bao nhiêu tải trọng chéo, v.v.), nhưng chủ đề chung là ước tính phụ để có được điểm đặc điểm chính sẽ kém hiệu quả. Xem báo cáo kỹ thuật ở đây để so sánh giữa mô hình một chiều không phù hợp và mô hình hai yếu tố; báo cáo kỹ thuật có vẻ chính xác là những gì bạn đang theo dõi.

Từ góc độ thực tế, sử dụng tiêu chí thông tin có thể hữu ích khi chọn mô hình tối ưu nhất, cũng như thống kê phù hợp với mô hình nói chung (RMSEA, CFI, v.v.) vì hậu quả của việc bỏ qua thông tin đa chiều sẽ ảnh hưởng tiêu cực đến sự phù hợp chung với dữ liệu . Nhưng tất nhiên, sự phù hợp của mô hình tổng thể chỉ là một dấu hiệu của việc sử dụng một mô hình không phù hợp cho dữ liệu trong tay; Hoàn toàn có thể sử dụng các hình thức chức năng không phù hợp, chẳng hạn như phi tuyến tính hoặc thiếu tính đơn điệu, do đó, luôn luôn phải kiểm tra các mục / biến tương ứng.

Xem thêm :

Drasello, F. và Parsons, CK (1983). Áp dụng các mô hình lý thuyết đáp ứng vật phẩm một chiều cho dữ liệu đa chiều. Đo lường tâm lý ứng dụng, 7 (2), 189-199.

Drasello, F. & Lissak, RI (1983). Phân tích song song sửa đổi: Một thủ tục để kiểm tra tính chiều tiềm ẩn của các phản ứng mục được ghi điểm nhị phân. Tạp chí Tâm lý học ứng dụng, 68, 363-373.

Levent Kirisci, Tse-chi Hsu và Lifa Yu (2001). Tính mạnh mẽ của các chương trình ước tính tham số vật phẩm đối với các giả định về tính không thống nhất và tính quy phạm. Đo lường tâm lý học ứng dụng, 25 (2), 146-162.


Cảm ơn bạn đã thêm điều này. Đây dường như chỉ là những gì tôi đang theo đuổi.
gung - Tái lập Monica

Tôi có hiểu chính xác rằng câu trả lời của bạn cho câu hỏi tiêu đề là "Có" không?
amip nói rằng Phục hồi Monica

2
@amoeba nói chung, tôi sẽ nói có, hoặc nhiều hơn bao gồm các thông tin bổ sung nên làm tốt hoặc tốt hơn là áp đặt sự không thống nhất nghiêm ngặt. Bỏ qua tính đa chiều đã biết có thể rất có vấn đề, nhưng tất nhiên một số yếu tố sẽ góp phần vào việc này. Thời gian duy nhất bao gồm thông tin bổ sung về cấu trúc có thể xấu là khi kích thước mẫu quá nhỏ để ước tính ổn định các tham số phụ; vì vậy, đánh đổi hiệu quả thiên vị. Nhưng, nếu kích thước mẫu không phải là vấn đề lớn thì tôi sẽ nói rằng sẽ mất rất ít từ việc bao gồm thông tin bổ sung (nhưng sẽ mất rất nhiều nếu không).
philchalmer

1

Nếu bạn thực sự không muốn sử dụng yếu tố thứ hai, bạn chỉ nên sử dụng mô hình một yếu tố. Nhưng tôi rất bối rối trước nhận xét của bạn rằng tải cho yếu tố thứ nhất sẽ thay đổi nếu bạn sử dụng yếu tố thứ hai.

xx

Tiếp theo, để giải thích về tác động của các phép quay. Tôi không giỏi vẽ, vì vậy tôi sẽ cố gắng thuyết phục bạn bằng lời nói. Tôi sẽ cho rằng dữ liệu của bạn là (xấp xỉ) bình thường, do đó điểm số của yếu tố cũng xấp xỉ bình thường. Nếu bạn trích xuất một yếu tố, bạn có được phân phối bình thường một chiều, nếu bạn trích xuất hai yếu tố, bạn sẽ có được phân phối chuẩn bivariate.

Mật độ của phân phối bivariate trông gần giống như một chiếc mũ, nhưng hình dạng chính xác phụ thuộc vào tỷ lệ cũng như hệ số tương quan. Vì vậy, hãy giả sử rằng hai thành phần đều có phương sai đơn vị. Trong trường hợp không tương thích, bạn có được một sombrero đẹp, với các đường cong cấp độ trông giống như các vòng tròn. Một hình ảnh ở đây . Tương quan "bóp" mũ, để nó trông giống mũ Napoleon hơn .

Giả sử rằng tập dữ liệu gốc của bạn có ba chiều và bạn muốn trích xuất hai yếu tố đó. Chúng ta cũng hãy gắn bó với sự bình thường. Trong trường hợp này, mật độ là một đối tượng bốn chiều, nhưng các đường cong mức là ba chiều và ít nhất có thể được hiển thị. Trong trường hợp không tương quan, các đường cong cấp độ là hình cầu (giống như một quả bóng đá). Khi có sự tương quan, các đường cong cấp độ sẽ lại bị biến dạng, thành một quả bóng đá, có thể là một đường viền nhỏ, do đó độ dày tại các đường nối nhỏ hơn độ dày theo các hướng khác.

Nếu bạn trích xuất hai yếu tố bằng PCA, bạn hoàn toàn làm phẳng bóng đá thành hình elip (và bạn chiếu mọi điểm dữ liệu lên mặt phẳng của hình elip). Yếu tố thứ nhất không được bảo vệ tương ứng với trục dài của hình elip, yếu tố thứ hai vuông góc với nó (tức là trục ngắn). Xoay sau đó chọn một hệ tọa độ trong hình elip này để đáp ứng một số tiêu chí tiện dụng khác.

Nếu bạn trích xuất chỉ một yếu tố duy nhất, xoay vòng là không thể, nhưng bạn được đảm bảo rằng yếu tố PCA được trích xuất tương ứng với trục dài của hình elip.


2
Tôi bối rối trước câu trả lời này. Câu hỏi hỏi rõ ràng về phân tích nhân tố, trái ngược với phân tích thành phần chính.
amip nói phục hồi Monica

Có hai cách để trích xuất các yếu tố: thành phần chính hoặc khả năng tối đa. Tôi chưa thực hiện bất kỳ số liệu thống kê nào về điều này, nhưng tôi tin rằng phương pháp thành phần chính được sử dụng thường xuyên hơn.
dùng3697176

3
Có rất nhiều phương pháp khác nhau, nhiều hơn hai. Trục chính, ML, minres, bình phương nhỏ nhất có trọng số, v.v. - Tôi không phải là chuyên gia ở đây. PCA có lẽ đôi khi (hiếm khi!) Cũng được coi là một phương pháp trích xuất yếu tố, nhưng điều đó khá cẩu thả - thực sự không nên như vậy. Nó phù hợp với một mô hình khác nhau.
amip nói phục hồi Monica

Câu đầu tiên của bạn đề cập đến Q. của tôi. Thật tuyệt khi nghe thêm về điều đó & tại sao nó có thể đúng. Về các phương pháp để trích xuất các yếu tố, @amoeba đã đúng: PCA & PAF đã trở lại phổ biến khi các thuật toán khác không được phát triển tốt hoặc khó thực hiện. Bây giờ họ được coi là thấp kém. fa()Ví dụ của R đã không sử dụng chúng trong nhiều năm. Các phương pháp khác sẽ mang lại các giải pháp không lồng nhau, dễ dàng xác minh w / phần mềm & bộ dữ liệu FA. Vì lợi ích của sự so sánh, bạn có thể xem xét cả hai giải pháp không được bảo vệ. FWIW, tôi quen thuộc với ý tưởng phân phối MVN hình cầu & elip.
gung - Phục hồi Monica

1
@gung, một nhận xét. Phương pháp PAF cũng đưa ra các giải pháp không lồng nhau. Nó là một phương pháp FA thực sự (mặc dù dựa trên PCA như một phương pháp) và, tôi cho rằng, vẫn được sử dụng rộng rãi.
ttnphns

1

Tại sao bạn không sử dụng một cái gì đó như lavaan hoặc MPlus để chạy hai mô hình (mô hình một chiều và mô hình hai chiều phù hợp với kết quả EFA của bạn) và so sánh các chỉ số phù hợp tương đối và tuyệt đối của các mô hình khác nhau (ví dụ: tiêu chí thông tin - AIC và BIC, RMSEA, SRMR, CFI / TLI)? Lưu ý rằng nếu bạn đi trên con đường này, bạn sẽ không muốn sử dụng PCA cho EFA, mà là các yếu tố chính. Ai đó thực sự quan tâm đến việc đo lường sẽ nhúng CFA vào mô hình phương trình cấu trúc đầy đủ.

Chỉnh sửa: Cách tiếp cận tôi đang yêu cầu bạn xem xét là tìm hiểu thêm về việc có bao nhiêu biến tiềm ẩn thực sự giải thích tập hợp các mục. Nếu bạn muốn có được ước tính tốt nhất về yếu tố lớn hơn, tôi sẽ bỏ phiếu cho việc sử dụng điểm yếu tố từ mô hình CFA với sự phù hợp tốt hơn, bất kể đó là gì.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.