Tương quan với các biến phân loại không có thứ tự


123

Tôi có một khung dữ liệu với nhiều quan sát và nhiều biến. Một số trong số chúng là phân loại (không có thứ tự) và những cái khác là số.

Tôi đang tìm kiếm sự liên kết giữa các biến này. Tôi đã có thể tính toán tương quan cho các biến số (tương quan của Spearman) nhưng:

  • Tôi không biết làm thế nào để đo lường mối tương quan giữa các biến phân loại không có thứ tự.
  • Tôi không biết làm thế nào để đo lường mối tương quan giữa các biến phân loại không có thứ tự và các biến số.

Có ai biết làm thế nào điều này có thể được thực hiện? Nếu vậy, có chức năng R thực hiện các phương pháp này?


Câu trả lời:


113

Nó phụ thuộc vào ý nghĩa của một mối tương quan bạn muốn. Khi bạn chạy tương quan thời điểm sản phẩm nguyên mẫu của Pearson, bạn sẽ có được một thước đo về sức mạnh của sự liên kết và bạn có được một bài kiểm tra về tầm quan trọng của sự liên kết đó. Thông thường hơn, tuy nhiên, thử nghiệm quan trọng và đo lường kích thước hiệu ứng khác nhau.

Các xét nghiệm quan trọng:

Kích thước hiệu ứng (sức mạnh của hiệp hội):


5
Một lời giải thích rất kỹ lưỡng về trường hợp liên tục so với danh nghĩa có thể được tìm thấy ở đây: Tương quan giữa một biến danh nghĩa (IV) và biến liên tục (DV) .
gung

3
Trong trường hợp nhị phân và khoảng thời gian có mối tương quan điểm-biserial .
Glen_b

Điều gì sẽ là một sự thay thế tốt hơn cho thử nghiệm chi bình phương cho các mẫu lớn?
Waldir Leoncio

2
p<.055%

1
Như @gung đã chỉ ra, Tương quan giữa một biến danh nghĩa (IV) và biến liên tục (DV) là một liên kết tuyệt vời cho cách tương quan cho các biến hỗn hợp có thể được thực hiện. Hmisc::rcorrlàm điều này thật đẹp và chúng ta có thể kiểm tra nó (cho một khung dữ liệu biến hỗn hợp) như sau:as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$P) as.data.frame(rcorr(as.matrix(data_frame),type = "pearson")$r)
KarthikS

15

Tôi đã nhìn thấy chiếc áo choàng sau được liên kết trước đây:

https://stats.idre.ucla.edu/other/mult-pkg/whatstat/

Nó có thể hữu ích cho bạn. Nó thậm chí có liên kết đến các thư viện R cụ thể.


3
Vấn đề với chiếc áo này là nó chỉ liên quan đến các biến phân loại / thứ tự / khoảng. Những gì tôi đang tìm kiếm là một phương pháp cho phép tôi sử dụng cả hai biến độc lập số và phân loại.
Clément F

6

Nếu bạn muốn một ma trận tương quan của các biến phân loại, bạn có thể sử dụng hàm bao bọc sau (yêu cầu gói 'vcd'):

catcorrm <- function(vars, dat) sapply(vars, function(y) sapply(vars, function(x) assocstats(table(dat[,x], dat[,y]))$cramer))

Ở đâu:

vars là một vectơ chuỗi của các biến phân loại bạn muốn tương quan

dat là một data.frame chứa các biến

Kết quả là một ma trận của Cramer's V.


6

XKtTôiKTôi= =1,Giáo dục,pXtTôiR2

Một phân tích như vậy có thể được coi là một khái quát của phân tích tương ứng, và được biết đến dưới nhiều tên, như phân tích tương quan chính tắc, phân tích đồng nhất, và nhiều cái khác. Một triển khai trong R là trong homalsgói (trên CRAN). googling cho một số tên này sẽ cung cấp rất nhiều thông tin, có một cuốn sách hoàn chỉnh: Albert Gifi, "Phân tích đa biến phi tuyến". Chúc may mắn!


1
1

Tôi sẽ chỉnh sửa để đưa vào tài khoản nhận xét này.
kjetil b halvorsen

2

Tôi đã có một vấn đề tương tự và tôi đã thử Chi-squared-Test theo đề xuất nhưng tôi đã rất bối rối khi đánh giá P-Values ​​chống lại Giả thuyết NULL.

Tôi sẽ giải thích làm thế nào tôi giải thích các biến phân loại. Tôi không chắc nó có liên quan như thế nào trong trường hợp của bạn. Tôi đã có Biến phản hồi Y và hai Biến dự đoán X1 và X2 trong đó X2 là biến phân loại có hai cấp độ 1 và 2. Tôi đang cố gắng điều chỉnh Mô hình tuyến tính

ols = lm(Y ~ X1 + X2, data=mydata)

Nhưng tôi muốn hiểu mức độ khác nhau của X2 phù hợp với phương trình trên. Tôi đã bắt gặp một hàm R bởi ()

by(mydata,X2,function(x) summary(lm(Y~X1,data=x)))

Những gì mã này làm là, nó đang cố gắng phù hợp với Mô hình tuyến tính cho từng cấp độ X2. Điều này đã cho tôi tất cả giá trị P và bình phương R, lỗi tiêu chuẩn dư mà tôi hiểu và có thể diễn giải.

Một lần nữa tôi không chắc đây có phải là điều bạn muốn không. Tôi sắp xếp các giá trị khác nhau của X2 để dự đoán Y.


1

Để đo cường độ liên kết giữa hai biến phân loại, tôi muốn đề xuất sử dụng tab chéo với chỉ số chisapes

để đo cường độ liên kết giữa một biến số và biến phân loại, bạn có thể sử dụng phép so sánh trung bình để xem liệu nó có thay đổi đáng kể từ loại này sang loại khác không


2
Chào mừng đến với trang web, @DaSilvaLionel. Bạn có thể nhận thấy rằng sử dụng kiểm tra chi bình phương với hai biến phân loại đã được đề xuất ở trên.
gung
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.