Có phân tích nhân tố hoặc PCA cho dữ liệu thứ tự hoặc nhị phân không?


28

Tôi đã hoàn thành phân tích thành phần chính (PCA), phân tích nhân tố khám phá (EFA) và phân tích nhân tố xác nhận (CFA), xử lý dữ liệu theo thang độertert (phản hồi 5 cấp: không, một chút, một số, ..) như một liên tục biến. Sau đó, bằng cách sử dụng Lavaan, tôi lặp lại CFA xác định các biến là phân loại.

Tôi muốn biết loại phân tích nào sẽ phù hợp và sẽ tương đương với PCA và EFA khi dữ liệu có tính chất thông thường. Và khi nhị phân .

Tôi cũng sẽ đánh giá cao các đề xuất cho các gói hoặc phần mềm cụ thể có thể dễ dàng thực hiện cho các phân tích như vậy.

Câu trả lời:


38

Phân tích PCA và yếu tố truyền thống (tuyến tính) yêu cầu dữ liệu ở cấp độ tỷ lệ (khoảng hoặc tỷ lệ). Thông thường dữ liệu đánh giá kiểu likeert được coi là cấp độ tỷ lệ, vì dữ liệu đó dễ phân tích hơn. Và quyết định đôi khi được bảo đảm về mặt thống kê, đặc biệt là khi số lượng danh mục được đặt hàng lớn hơn 5 hoặc 6. (Mặc dù hoàn toàn là câu hỏi về loại dữ liệu và số mức quy mô là khác biệt.)

Điều gì sẽ xảy ra nếu bạn thích coi thang đo polytomous như là thứ tự? Hoặc bạn có dữ liệu nhị phân? Có thể làm phân tích nhân tố khám phá hoặc PCA cho họ?

Hiện tại có ba phương pháp chính để thực hiện FA (bao gồm PCA là trường hợp đặc biệt của nó) trên phân loại thứ tự hoặc các biến nhị phân (đọc cũng này tài khoản về trường hợp dữ liệu nhị phân, và này xem xét về những gì có thể được thực hiện với quy mô thứ tự).

  1. Phương pháp mở rộng quy mô tối ưu (một họ ứng dụng ). Cũng được gọi là PCA phân loại (CatPCA) hoặc FA phi tuyến. Trong CatPCA, các biến số thứ tự được biến đổi đơn điệu ("định lượng") thành các phiên bản khoảng "cơ bản" của chúng theo mục tiêu để tối đa hóa phương sai được giải thích bởi số lượng thành phần chính được chọn trích xuất từ ​​dữ liệu khoảng đó. Điều này làm cho phương pháp công khai hướng đến mục tiêu (chứ không phải dựa trên lý thuyết) và quan trọng là quyết định trước số lượng các thành phần chính. Nếu FA thực sự là cần thiết thay vì PCA, thì FA tuyến tính thông thường có thể được thực hiện một cách tự nhiên trên các đầu ra biến đổi từ CatPCA. Với các biến nhị phân, CatPCA (đáng tiếc?) Hành xử theo cách của PCA thông thường, nghĩa là, như thể chúng là các biến liên tục. CatPCA cũng chấp nhận các biến danh nghĩa và bất kỳ hỗn hợp các loại biến (đẹp).

  2. Suy ra cách tiếp cận biến cơ bản . Còn được gọi là PCA / FA được thực hiện trên các mối tương quan tetrachoric (đối với dữ liệu nhị phân) hoặc polychoric (đối với dữ liệu thứ tự). Phân phối chuẩn được giả định cho biến liên tục bên dưới (sau đó được đánh dấu) cho mỗi biến số của bảng kê khai. Sau đó FA cổ điển được áp dụng để phân tích các mối tương quan nói trên. Cách tiếp cận dễ dàng cho phép kết hợp dữ liệu nhị phân, thứ tự, nhị phân. Một nhược điểm của phương pháp này là - trong việc suy ra các mối tương quan - nó không có manh mối nào về phân phối đa biến của các biến cơ bản, - có thể "hình dung" ở hầu hết các phân phối bivariate, do đó không dựa trên thông tin đầy đủ.

  3. Mục tiếp cận lý thuyết đáp ứng (IRT). Đôi khi cũng được gọi là FA logistic hoặc phân tích đặc điểm tiềm ẩn . Một mô hình rất gần với logit nhị phân (đối với dữ liệu nhị phân) hoặc mô hình tỷ lệ cược log tỷ lệ (đối với dữ liệu thứ tự) được áp dụng. Thuật toán không bị ràng buộc với việc phân tách ma trận tương quan, do đó, nó hơi khác với FA truyền thống, nhưng nó vẫn là một FA phân loại trung thực. "Thông số phân biệt đối xử" tương ứng chặt chẽ với tải của FA, nhưng "khó khăn" thay thế khái niệm "tính duy nhất" của FA. Sự chắc chắn phù hợp IRT nhanh chóng giảm khi số lượng các yếu tố tăng lên, đó là một vấn đề của phương pháp này. IRT có thể mở rộng theo cách riêng của mình để kết hợp các biến hỗn hợp + nhị phân + thứ tự và có thể là danh nghĩa.

Điểm yếu tố trong các cách tiếp cận (2) và (3) khó ước tính hơn so với điểm yếu tố trong FA cổ điển hoặc theo cách tiếp cận (1). Tuy nhiên, một số phương pháp tồn tại (phương pháp aposteriori dự kiến ​​hoặc tối đa, phương pháp khả năng tối đa, v.v.).

Các giả định mô hình phân tích nhân tố chủ yếu giống nhau trong ba cách tiếp cận như trong FA truyền thống. Cách tiếp cận (1) có sẵn trong R, SPSS, SAS (theo ý tôi). Phương pháp tiếp cận (2) và (3) được triển khai chủ yếu trong các gói biến tiềm ẩn chuyên biệt - Mplus, LISREL, EQS.

  1. Cách tiếp cận đa thức. Điều đó chưa được phát triển đầy đủ. Các thành phần chính có thể được mô hình hóa thành các tổ hợp biến đa thức ( sử dụng đa thức là một cách phổ biến để mô hình hóa các hiệu ứng phi tuyến của các hồi quy thứ tự.). Ngoài ra, các loại quan sát lần lượt có thể được mô hình thành các biểu hiện riêng biệt của sự kết hợp đa thức của các yếu tố tiềm ẩn.

  2. Có tồn tại một lĩnh vực hưng thịnh của các kỹ thuật phi tuyến giảm chiều; một số trong số chúng có thể được áp dụng hoặc chấp nhận để làm việc với dữ liệu phân loại (đặc biệt là nhị phân hoặc sau khi tạo thành một bộ dữ liệu thưa thớt chiều cao).

  3. r

Nhìn cũng trong này , này , này , này , này , này , này , này .


3
Câu trả lời phi thường. Điều duy nhất cần thêm là tôi nghĩ bạn có thể sử dụng gói psych trong R để thực hiện các cách tiếp cận trong (2) (xem tùy chọn "cor" cho chức năng fa) và (3) (xem các hàm irt.fa và irt.poly ) đến nhiều mức độ khác nhau và gói ltm cũng có thể được sử dụng để phù hợp với một số mô hình IRT.
jsakaluk

1
Họ có thể khác nhau như vậy. Tôi đã thực hiện nhiều lần tạo / xác thực hàng tồn kho bằng "FA phi tuyến" (CatPCA-then-EFA) và đã tìm thấy kết quả tốt hơn so với EFA thông thường (tuyến tính). Quy trình tôi áp dụng tương tự như FA thông thường, điểm khác biệt duy nhất là đối với mọi phân tích - mọi bộ mục tôi thử và mọi số yếu tố tôi trích xuất - Tôi đã thực hiện CatPCA-sau đó (trên các biến được định lượng) -EFA pas de deux .
ttnphns

@jsakaluk, hơn bạn rất nhiều về thông tin. (Tôi không phải là người dùng R nên chỉ biết rất ít về khả năng phi thường của nó).
ttnphns

Cảm ơn bạn đã phản hồi kỹ lưỡng như vậy. @ttnphns Tôi đã dành phần lớn ngày nay đang cố gắng để thực hiện CATPCA trong SPSS 23. Tôi quản lý để xác định vị trí hai hướng dẫn (Linting & Kooij (2012) & unt.edu/rss/class/Jon/SPSS_SC/Module9/M9_CATPCA/... ) chưa không trả lời được một vài câu hỏi của riêng tôi Bạn có thể đề xuất một lối thoát tốt để giải quyết một số câu hỏi kỹ thuật? Cám ơn bạn một lần nữa.
dùng116948

1
@ user116948, Nếu bạn gặp khó khăn trong việc hiểu cách làm việc với nó trong SPSS: Trước hết, hãy tìm và đọc nghiên cứu điển hình CATPCA trong menu con SPSS Case Studies trong menu Trợ giúp. Thứ hai, duyệt tất cả các câu hỏi về CATPCA đã được hỏi trên trang web này. Thứ ba: nếu bạn vẫn còn thắc mắc - hãy hỏi nó như một câu hỏi mới trên trang web. Đừng lo lắng: nếu nó "quá kỹ thuật" thì nó có thể được chuyển sang StackOveflow. Forth: chọn một cộng đồng SPSS để hỏi câu hỏi của bạn (SPSSXL là tốt nhất). Chúc mừng bạn.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.