Mối tương quan giữa các loại giữa các biến danh nghĩa phân loại


9

Tôi có một bộ dữ liệu với hai biến danh nghĩa phân loại (cả hai có 5 loại). Tôi muốn biết nếu (và làm thế nào) tôi có thể xác định mối tương quan tiềm năng giữa các loại từ hai biến này.

Nói cách khác, cho dù kết quả của loại trong biến 1 cho thấy mối tương quan mạnh mẽ với một loại j cụ thể trong biến 2. Vì tôi có hai biến với 5 loại, tổng phân tích tương quan cho tất cả các loại sẽ giảm xuống còn 25 kết quả (ít nhất là nếu nó hoạt động theo cách tôi hy vọng / mong đợi nó hoạt động).ij

Tôi đã cố gắng đặt vấn đề thành các câu hỏi cụ thể:

Câu hỏi 1: Giả sử tôi chuyển biến phân loại thành 5 biến giả khác nhau cho mỗi giá trị (loại). Thủ tục tương tự này tôi cũng chạy cho biến thứ hai. Sau đó, tôi muốn xác định mối tương quan giữa hình nộm 1.i và 2.i (ví dụ). Là nó đúng về mặt thống kê đối với tôi để thực hiện thủ tục này bằng thủ tục hệ số tương quan thông thường? Liệu hệ số tương quan dẫn đến từ thủ tục này cung cấp một cái nhìn sâu sắc đúng đắn trong mối tương quan giữa hai biến giả?

Câu hỏi 2: Nếu thủ tục được mô tả trong câu hỏi một là một thủ tục hợp lệ, có cách nào để thực hiện phân tích này cho tất cả các loại của 2 (hoặc có thể nhiều hơn) tất cả các biến danh nghĩa phân loại cùng một lúc không?

Chương trình tôi đang sử dụng là SPSS (20).


Điểm được thực hiện bởi @Michael Mayer áp dụng cho câu hỏi sửa đổi.
Nick Cox

1
Nếu hai biến không tương quan, thì bạn sẽ có 1/25 trong mỗi ô của ma trận 5x5 tần số. Do đó, thống kê x y ( O - E ) 2χ2 , trong đóE=xyOxy/25Oxy- tần số quan sát được cho bất kỳ 5 giá trị của hai biến, nên phù hợp. xy(OE)2EE=xyOxy/25Oxy
Aksakal

3
@Aksakal "Không tương quan" là thuật ngữ sai ở đây; các biến là danh nghĩa, vì vậy các mối tương quan không được xác định. Tôi nghĩ bạn có nghĩa là độc lập, nhưng độc lập cũng không bao hàm tần số bằng nhau. Các tần số tế bào dưới sự độc lập phụ thuộc vào tần số biên.
Nick Cox

Câu trả lời:


6

Liên kết "tiêu điểm" giữa loại của một biến danh nghĩa và loại j của loại khác được biểu thị bằng tần số trong ô i j , như chúng ta biết. Nếu phần dư là 0 thì có nghĩa là tần số là những gì được mong đợi khi hai biến danh nghĩa không được liên kết. Phần dư càng lớn thì liên kết càng lớn do sự kết hợp quá mức i j trong mẫu. Phần dư âm lớn tương đương nói về sự kết hợp không đúng mức. Vì vậy, tần số dư là những gì bạn muốn.ijijij

Ntrong đó. So sánh st. phần dư trong một bảng và trên các bảng có cùng thể tích giúp xác định các ô cụ thể đóng góp nhiều nhất vào thống kê chi bình phương.

NrijNrijijr

ijp<0.051Nrr2

Liên quan đến câu hỏi thứ hai của bạn, về mối quan hệ danh mục 3 chiều - đây có thể là một phần của phân tích loglinear chung cũng hiển thị phần dư. Tuy nhiên, việc sử dụng thực tế của dư lượng tế bào 3 chiều còn khiêm tốn: 3 (+) - các biện pháp liên kết cách không dễ dàng được tiêu chuẩn hóa và không dễ hiểu.


11.962

2ijrijPr(i,1)Pr(i,2)ii


1

Lấy trực tiếp từ một tài liệu về thống kê bivariate với SPSS sống ở đây :

Chi bình phương là một kỹ thuật hữu ích vì bạn có thể sử dụng nó để xem liệu có mối quan hệ giữa hai biến số thứ tự, hai biến danh nghĩa hoặc giữa một biến số thứ tự và một biến danh nghĩa. Bạn nhìn vào assymp. Cột Sig và nếu nó nhỏ hơn 0,05, mối quan hệ giữa hai biến có ý nghĩa thống kê.


4
OK, nhưng ba càu nhàu, một chính, hai rất nhỏ. Chi-vuông trên hai biến số bỏ qua thứ tự. Đây không phải tài liệu SPSS, mà là một giới thiệu cơ bản của người khác, và họ đơn giản hóa quá mức, như vừa đề cập. Họ đã không sao chép "Asymp." chính xác (ví dụ trên trang trước). Vấn đề lớn hơn đối với OP là sự tương quan là từ sai ở đây: "liên kết" là từ khóa, về mặt đo lường, kiểm tra và (tốt nhất là tất cả) mô hình hóa liên kết.
Nick Cox

1
Cảm ơn, tôi đã chỉnh sửa the SPSS documentbit, tôi không có ý định đính kèm bất kỳ tính xác thực không đáng có nào vào nó.
Zhubarb
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.