Các mối nguy hiểm của việc tính toán tương quan Pearson (thay vì các tetrachoric) cho các biến nhị phân trong phân tích nhân tố là gì?


10

Tôi nghiên cứu về các trò chơi giáo dục và một số dự án hiện tại của tôi liên quan đến việc sử dụng dữ liệu từ BoardGameGeek (BGG) và VideoGameGeek (VGG) để kiểm tra mối quan hệ giữa các yếu tố thiết kế của trò chơi (ví dụ: "đặt trong Thế chiến II", "liên quan đến xúc xắc" ) và xếp hạng người chơi của những trò chơi đó (ví dụ: điểm trên 10). Mỗi yếu tố thiết kế này tương ứng với một thẻ trong hệ thống BGG hoặc VGG, vì vậy mỗi yếu tố về cơ bản là một biến nhị phân. Trò chơi có 1 cho mỗi thẻ có trong cơ sở dữ liệu cho nó và 0 cho mỗi thẻ không có.

Có hàng tá các thẻ này, vì vậy tôi muốn sử dụng phân tích nhân tố khám phá (EFA) để đưa ra số lượng "thể loại" có thể quản lý để nắm bắt các mẫu trong thiết kế trò chơi. Tham khảo một số nguồn, tôi hiểu rằng vì tôi đang làm việc với các biến nhị phân , tôi nên sử dụng các tương quan đa âm ( tetrachoric , đặc biệt ở đây) thay vì Pearson khi đưa ra các yếu tố của tôi (cũng có các tùy chọn khác như phân tích tính trạng tiềm ẩn ngoài kia, nhưng đây là cái tôi đang khám phá bây giờ).

Vì tò mò, tôi đã nghĩ ra hai bộ yếu tố, một bộ sử dụng tương quan Pearson và bộ kia sử dụng tương quan đa âm (cùng số lượng yếu tố mỗi lần). Vấn đề của tôi là các yếu tố được tính toán bằng các tương quan Pearson có ý nghĩa hơn nhiều và dễ diễn giải hơn các yếu tố được tính toán bằng các tương quan đa âm. Nói cách khác, "thể loại" từ tập hợp các yếu tố đầu tiên có ý nghĩa trực quan và tương ứng với sự hiểu biết của tôi về cách các trò chơi thường được thiết kế; đó không phải là trường hợp của tập hợp các yếu tố thứ hai.

Một mặt, tôi muốn chắc chắn rằng tôi đáp ứng các giả định của các bài kiểm tra mà tôi đang sử dụng, ngay cả khi điều đó làm cho kết quả của tôi kém đi. Mặt khác, tôi cảm thấy rằng một phần của mục tiêu phân tích nhân tố và (rộng hơn) xây dựng mô hình là đưa ra một cái gì đó hữu ích, và thông tin hữu ích hơn đang xuất hiện khi tôi "phá vỡ quy tắc". Là nhu cầu cho một mô hình hữu ích đủ lớn hơn vi phạm các giả định của thử nghiệm này? Chính xác thì hậu quả của việc sử dụng tương quan Pearson thay vì đa nguyên là gì?


1
Các giả định về tính quy tắc đa biến cơ bản rất mạnh với dữ liệu có hơn ba chiều hoặc các mối tương quan đa âm dừng lại có ý nghĩa nhiều như vậy. Mức độ sai chính tả của mô hình với các mối tương quan đa âm rất có thể làm cho phân tích của bạn khá vô dụng. Tuy nhiên, tôi không chắc chắn tại sao bạn cần những mối tương quan đó: nếu bạn có một biến kết quả rõ ràng (xếp hạng) và một loạt các biến giải thích (tính năng thiết kế), bạn cần phân tích hồi quy, không phải phân tích nhân tố.
StasK

Phân tích hồi quy @StasK mục tiêu cuối cùng của tôi, nhưng tôi có hơn 100 biến giải thích và muốn giảm số đó xuống một số dễ quản lý hơn.
Spencer Greenhalgh

Hơn nữa, đối với các vấn đề như vậy phân loại là một mục tiêu trong chính nó.
Pere

Câu trả lời:


7

Phân tích nhân tố tuyến tính là về mặt lý thuyết , logic cho các biến liên tục . Nếu các biến không liên tục nhưng, chẳng hạn, là nhị phân, một cách để bạn có thể thừa nhận các biến liên tục tiềm ẩn phía sau và tuyên bố rằng các biến quan sát là các biến được đặt bên dưới hoặc đúng. Bạn không thể định lượng một biến nhị phân thành một thang đo mà không có "gia sư" ngoại lai, nhưng bạn vẫn có thể suy ra các mối tương quan sẽ xảy ra nếu các biến của bạn chưa được xử lý và được "phân phối" liên tục. Và đây là tetrachorictương quan (hoặc đa âm, nếu thay cho nhị phân, bạn có các biến số thứ tự). Vì vậy, sử dụng các tương quan tetrachoric (tương quan Pearson suy ra) thay cho tương quan Phi (quan sát tương quan Pearson với dữ liệu nhị phân) là một hành động hợp lý.

r=1rr, nhưng trong các biến nhị phân, hiệu ứng này là rõ nét nhất vì có quá ít giá trị để đảm nhận.) Vì vậy, các tương quan phi trong ma trận của chúng có thể được xem là bị lệch một cách không đồng đều do các phân phối biên tương phản trong các biến nhị phân; bạn không biết liệu một tương quan có lớn hơn một "thực sự" khác hay do các điểm cắt khác nhau trong hai cặp biến này. Số lượng các yếu tố cần trích xuất (theo các tiêu chí như "eigenvalue> 1" của Kaisers sẽ bị thổi phồng: một số "yếu tố" được trích xuất là kết quả của sự không đồng đều, tính đa dạng của các điểm cắt, - không phải là các yếu tố tiềm ẩn. Đây là lý do thực tế tại sao không sử dụng các tương quan phi (ít nhất là ở dạng thô - không phản ứng).

Đã có bằng chứng trong các nghiên cứu mô phỏng / tạo thùng rằng phân tích nhân tố dựa trên mối tương quan tetrachoric sẽ xấu đi nếu có nhiều tương quan mạnh (> 0,7) trong ma trận. Tương quan Tetrachoric là không lý tưởng: nếu các điểm cắt của các biến cơ bản tương quan nằm ở hai mặt đối lập (và do đó, các phân phối biên trong nhị phân bị lệch nhau) trong khi liên kết cơ bản mạnh hơn, hệ số tetrachoric đánh giá cao hơn nữa. Cũng lưu ý rằng ma trận tương quan tetrachoric không nhất thiết phải là semidefinite dương trong các mẫu không lớn và do đó có thể cần hiệu chỉnh ("làm mịn"). Tuy nhiên, nó được nhiều người coi là một cách tốt hơn so với việc phân tích nhân tố trên các hệ số Pearson (phi) đơn giản.

Nhưng tại sao cụ thể là phân tích nhân tố trên dữ liệu nhị phân? Có các tùy chọn khác, bao gồm đặc điểm tiềm ẩn / IRT (một dạng phân tích nhân tố "logistic") và phân tích Nhiều tương ứng (nếu bạn thấy các biến nhị phân của mình là các danh mục danh nghĩa).

Xem thêm:


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.