Thực hiện phân tích thành phần chính hoặc phân tích nhân tố trên dữ liệu nhị phân

Tôi có một bộ dữ liệu với số lượng lớn các câu trả lời Có / Không. Tôi có thể sử dụng các thành phần chính (PCA) hoặc bất kỳ phân tích giảm dữ liệu nào khác (như phân tích nhân tố) cho loại dữ liệu này không? Vui lòng tư vấn cách tôi thực hiện việc này bằng SPSS.

— Cathy
nguồn

Điều gì khiến bạn coi PCA cụ thể là trái ngược với phân tích phân biệt đối xử?

— Chris Simokat

Xem thêm: stats.stackexchange.com/a/186026/3277

— ttnphns

Câu hỏi về các biến nhị phân hoặc nhị phân trong phân tích PCA hoặc Factor là vĩnh cửu. Có nhiều ý kiến cực đoan từ "nó là bất hợp pháp" đến "nó ổn", thông qua một cái gì đó như "bạn có thể làm điều đó nhưng bạn sẽ nhận được quá nhiều yếu tố". Ý kiến hiện tại của tôi là như sau. Đầu tiên, tôi cho rằng biến quan sát nhị phân bị bỏ đi và việc xử lý nó theo bất kỳ cách nào là không liên tục. Biến rời rạc này có thể làm phát sinh yếu tố hoặc thành phần chính?

Phân tích nhân tố (FA). Yếu tố theo định nghĩa là một độ trễ liên tục tải các biến quan sát được ( 1 , 2 ). Do đó, cái sau không thể nhưng liên tục (hoặc khoảng, nói thực tế hơn) khi đủ tải theo yếu tố. Ngoài ra, FA, do tính chất hồi quy tuyến tính của nó, giả định rằng phần còn lại - không được tải - một phần, được gọi là uniqness, là liên tục, và do đó, các biến quan sát phải liên tục ngay cả khi được tải nhẹ. Do đó, các biến nhị phân không thể tự lập pháp trong FA. Tuy nhiên, có ít nhất hai cách làm tròn: (A) Giả sử các lưỡng phân khi được làm thô tiếp tục các biến cơ bản và thực hiện FA với tetrachoric - thay vì Pearson - tương quan; (B) Giả sử rằng yếu tố đó tải một biến nhị phân không theo đường thẳng mà theo logic và thực hiện Phân tích đặc điểm tiềm ẩn (còn gọi là Lý thuyết đáp ứng vật phẩm) thay vì FA tuyến tính. Đọc thêm .
Phân tích thành phần chính (PCA). Mặc dù có nhiều điểm chung với FA, PCA không phải là một mô hình mà chỉ là một phương pháp tóm tắt. Các thành phần không tải các biến theo nghĩa khái niệm giống như các yếu tố tải các biến. Trong PCA, các thành phần tải các biến và các thành phần tải biến. Sự đối xứng này là do PCA per se chỉ là một vòng quay của các biến-trục trong không gian. Các biến nhị phân sẽ không cung cấp tính liên tục thực sự cho một thành phần bởi chính chúng - vì chúng không liên tục, nhưng giả ngẫu nhiên có thể được cung cấp bởi góc quay PCA có thể xuất hiện bất kỳ. Do đó, trong PCA và ngược lại với FA, bạn có thể nhận được các kích thước dường như liên tục (trục xoay) với các biến nhị phân thuần túy (trục không được bảo vệ) - góc là nguyên nhân của sự liên tục $^1$

(0,0) $^2$

Một số câu hỏi liên quan về FA hoặc PCA của dữ liệu nhị phân: 1 , 2 , 3 , 4 , 5 , 6 . Câu trả lời có khả năng có thể bày tỏ ý kiến khác với tôi.

$^1$ thực thể mức - đối với các biến là điểm hoặc danh mục là điểm - tọa độ của chúng trong không gian trục chính là giá trị tỷ lệ hợp pháp thực sự. Nhưng không phải đối với các điểm dữ liệu (trường hợp dữ liệu) của dữ liệu nhị phân, - "điểm số" của chúng là các giá trị liên tục giả : không phải là số đo nội tại, chỉ là một số tọa độ lớp phủ.

$^2$ $1$

Ví dụ về dữ liệu nhị phân (chỉ là trường hợp đơn giản gồm hai biến):

Các biểu đồ tán xạ bên dưới hiển thị các điểm dữ liệu bị xáo trộn một chút (để hiển thị tần số) và hiển thị các trục thành phần chính dưới dạng các đường chéo mang điểm thành phần trên chúng [các điểm đó, theo tuyên bố của tôi là các giá trị giả liên tục]. Biểu đồ bên trái trên mỗi hình ảnh thể hiện PCA dựa trên độ lệch "thô" so với điểm gốc, trong khi biểu đồ bên phải biểu thị PCA dựa trên độ lệch tỷ lệ (đường chéo = đơn vị) so với độ lệch.

1) PCA truyền thống đặt (0,0)nguồn gốc vào dữ liệu trung bình (centroid). Đối với dữ liệu nhị phân, giá trị trung bình không phải là giá trị dữ liệu có thể. Đó là, tuy nhiên, trung tâm vật lý của trọng lực. PCA tối đa hóa sự thay đổi về nó.

(Đừng quên rằng, trong một trung bình biến thiên nhị phân và phương sai được liên kết chặt chẽ với nhau, chúng có thể nói là "một điều". ví dụ hiện tại, sẽ có nghĩa là bạn cản trở các biến cân bằng hơn - có phương sai lớn hơn - ảnh hưởng đến PCA lớn hơn các biến bị lệch hơn.)

2) Bạn có thể thực hiện PCA trong dữ liệu không tập trung, tức là để nguồn gốc (0,0)đi đến vị trí (0,0). Đó là PCA trên X'X/nma trận MSCP ( ) hoặc trên ma trận tương tự cosine. PCA tối đa hóa khả năng bảo vệ từ trạng thái không có thuộc tính.

3) Bạn có thể để nguồn gốc (0,0)nằm ở điểm dữ liệu của tổng khoảng cách Manhattan nhỏ nhất từ nó đến tất cả các điểm dữ liệu khác - L1 medoid. Medoid, nói chung, được hiểu là điểm dữ liệu "đại diện" hoặc "điển hình" nhất. Do đó, PCA sẽ tối đa hóa sự không điển hình (ngoài tần số). Trong dữ liệu của chúng tôi, L1 medoid rơi vào (1,0)tọa độ ban đầu.

4) Hoặc đặt gốc (0,0)tọa độ tại tọa độ dữ liệu trong đó tần số là chế độ đa biến cao nhất. Đây là (1,1)ô dữ liệu trong ví dụ của chúng tôi. PCA sẽ tối đa hóa (được điều khiển bởi) các chế độ cơ sở.

5) Trong phần thân của câu trả lời, người ta đã đề cập rằng các mối tương quan tetrachoric là một vấn đề hợp lý để thực hiện phân tích nhân tố trên, cho các biến nhị phân. Điều tương tự cũng có thể nói về PCA: bạn có thể thực hiện PCA dựa trên mối tương quan tetrachoric . Tuy nhiên, điều đó có nghĩa là bạn đang giả sử một biến liên tục tiềm ẩn bên trong một biến nhị phân.

— ttnphns
nguồn

Về mối liên hệ giữa FA trên các mặt hàng nhị phân và các mô hình IRT (1- và 2-PL), đây là hai bài viết có thể thú vị: Takane & de Leeuw, Về mối quan hệ giữa lý thuyết phản hồi vật phẩm và phân tích nhân tố của các biến rời rạc , Psychometrika ( 1987) 52 (3): 393; và một cái gần đây hơn, Kamata & Bauer, Lưu ý về mối quan hệ giữa các mô hình lý thuyết phân tích nhân tố và phản ứng vật phẩm , SEM (2008) 15: 136.

— chl