Làm thế nào để có được mối tương quan giữa hai biến phân loại và biến phân loại và biến liên tục?


63

Tôi đang xây dựng mô hình hồi quy và tôi cần tính toán dưới đây để kiểm tra mối tương quan

  1. Mối tương quan giữa 2 biến phân loại đa cấp
  2. Mối tương quan giữa một biến phân loại đa cấp và biến liên tục
  3. VIF (yếu tố lạm phát phương sai) cho một biến phân loại đa cấp

Tôi tin rằng việc sử dụng hệ số tương quan Pearson cho các kịch bản trên là sai vì Pearson chỉ hoạt động cho 2 biến liên tục.

Hãy trả lời các câu hỏi dưới đây

  1. Hệ số tương quan nào hoạt động tốt nhất cho các trường hợp trên?
  2. Tính toán VIF chỉ hoạt động đối với dữ liệu liên tục, vậy phương án nào là thay thế?
  3. Các giả định tôi cần kiểm tra trước khi sử dụng hệ số tương quan mà bạn đề xuất là gì?
  4. Làm thế nào để thực hiện chúng trong SAS & R?

4
Tôi muốn nói CV.SE là một nơi tốt hơn cho các câu hỏi về số liệu thống kê lý thuyết nhiều hơn như thế này. Nếu không, tôi muốn nói rằng câu trả lời cho câu hỏi của bạn phụ thuộc vào ngữ cảnh. Đôi khi nó có ý nghĩa để làm phẳng nhiều cấp độ thành các biến giả, những lần khác, đáng để mô hình hóa dữ liệu của bạn theo phân phối đa phương thức, v.v.
ffriend

Là các biến phân loại của bạn được đặt hàng? Nếu có, điều này có thể ảnh hưởng đến loại tương quan bạn muốn tìm kiếm.
nassimhddd

tôi phải đối mặt với cùng một vấn đề trong nghiên cứu của tôi. nhưng tôi không thể tìm ra phương pháp chính xác để giải quyết vấn đề này. Vì vậy, nếu bạn có thể vui lòng tử tế để cung cấp cho tôi các tài liệu tham khảo bạn đã tìm thấy.
dùng89797

bạn có nghĩa là giá trị p giống như hệ số tương quan r?
Ayo Emma

Giải pháp trên với ANOVA cho phân loại so với liên tục là tốt. Tiếng nấc nhỏ. Giá trị p càng nhỏ, "độ khớp" giữa hai biến càng tốt. Không phải hướng ngược lại.
myudelson

Câu trả lời:


73

Hai biến phân loại

Kiểm tra xem hai biến phân loại có độc lập hay không có thể được thực hiện bằng phép thử Chi-Squared về tính độc lập.

Đây là một thử nghiệm Chi-Square điển hình : nếu chúng ta giả sử rằng hai biến là độc lập, thì các giá trị của bảng dự phòng cho các biến này sẽ được phân phối đồng đều. Và sau đó chúng tôi kiểm tra cách xa các giá trị thực tế.

Ngoài ra còn tồn tại V của Crammer là thước đo tương quan theo sau thử nghiệm này

Thí dụ

Giả sử chúng ta có hai biến

  • giới tính: nam và nữ
  • thành phố: Blois và Tours

Chúng tôi quan sát dữ liệu sau:

giá trị quan sát

Giới tính và thành phố có độc lập không? Hãy thực hiện một bài kiểm tra Chi-Squred. Giả thuyết Null: chúng độc lập, Giả thuyết thay thế là chúng có mối tương quan theo một cách nào đó.

Theo giả thuyết Null, chúng tôi giả định phân phối đồng đều. Vì vậy, các giá trị dự kiến ​​của chúng tôi là như sau

gia trị được ki vọng

Vì vậy, chúng tôi chạy thử nghiệm chi bình phương và giá trị p kết quả ở đây có thể được xem là thước đo tương quan giữa hai biến này.

Để tính V của Crammer, trước tiên chúng ta tìm hệ số chuẩn hóa chi-squared-max thường là kích thước của mẫu, chia bình phương cho nó và lấy căn bậc hai

nhồi nhét v

R

tbl = matrix(data=c(55, 45, 20, 30), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

Ở đây giá trị p là 0,08 - khá nhỏ, nhưng vẫn không đủ để bác bỏ giả thuyết độc lập. Vì vậy, chúng ta có thể nói rằng "tương quan" ở đây là 0,08

Chúng tôi cũng tính V:

sqrt(chi2$statistic / sum(tbl))

Và nhận 0,14 (v càng nhỏ, tương quan càng thấp)

Xem xét một tập dữ liệu khác

    Gender
City  M  F
   B 51 49
   T 24 26

Đối với điều này, nó sẽ cung cấp cho sau đây

tbl = matrix(data=c(51, 49, 24, 26), nrow=2, ncol=2, byrow=T)
dimnames(tbl) = list(City=c('B', 'T'), Gender=c('M', 'F'))

chi2 = chisq.test(tbl, correct=F)
c(chi2$statistic, chi2$p.value)

sqrt(chi2$statistic / sum(tbl))

Giá trị p là 0,72 gần hơn với 1 và v là 0,03 - rất gần với 0

Biến phân loại so với số

Đối với loại này, chúng tôi thường thực hiện kiểm tra ANOVA một chiều : chúng tôi tính toán phương sai trong nhóm và phương sai trong nhóm và sau đó so sánh chúng.

Thí dụ

Chúng tôi muốn nghiên cứu mối quan hệ giữa chất béo hấp thụ từ bánh rán so với loại chất béo được sử dụng để sản xuất bánh rán (ví dụ được lấy từ đây )

bánh rán

Có sự phụ thuộc giữa các biến? Vì vậy, chúng tôi tiến hành kiểm tra ANOVA và thấy rằng giá trị p chỉ là 0,007 - không có mối tương quan giữa các biến này.

R

t1 = c(164, 172, 168, 177, 156, 195)
t2 = c(178, 191, 197, 182, 185, 177)
t3 = c(175, 193, 178, 171, 163, 176)
t4 = c(155, 166, 149, 164, 170, 168)

val = c(t1, t2, t3, t4)
fac = gl(n=4, k=6, labels=c('type1', 'type2', 'type3', 'type4'))

aov1 = aov(val ~ fac)
summary(aov1)

Đầu ra là

            Df Sum Sq Mean Sq F value  Pr(>F)   
fac          3   1636   545.5   5.406 0.00688 **
Residuals   20   2018   100.9                   
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Vì vậy, chúng ta có thể lấy giá trị p làm thước đo tương quan ở đây.

Người giới thiệu


1
Cảm ơn Alexey cho các chi tiết. Dựa trên nhiều nghiên cứu tôi đã tìm thấy về mối tương quan polyserial và polychloric. Làm thế nào là cách tiếp cận của bạn tốt hơn so với những điều này? Vui lòng giải thích
GeorgeOfTheRF

1
Tôi không nhận thức được những điều này, xin lỗi.
Alexey Grigorev

Câu trả lời của Fasntastic bởi @Alexey. Tôi đọc lên các mối tương quan polychoric / polyseries trực tuyến sau khi đọc bình luận của bạn. Chúng là kỹ thuật để ước tính mối tương quan giữa hai biến tiềm ẩn, từ hai biến quan sát. Tôi không nghĩ đó là những gì bạn yêu cầu và nó không thể so sánh với câu trả lời của Alexey.
KarthikS

1
Ví dụ đầu tiên của bạn KHÔNG phải là về phân loại so với phân loại, mà là phân loại so với số, trong thực tế, bạn đang nhìn vào thành phố so với số lượng nam giới (nữ, tương ứng) là số. Phân loại so với phân loại sẽ là, thành phố so với màu mắt hoặc hình dạng hoặc bất cứ thứ gì khác, nhưng không có nghĩa nó sẽ là số đại diện của giới tính.
gạc

1
@AlexeyGrigorev Nếu dữ liệu của chúng tôi không được phân phối bình thường, nên kruskal-wallicsử dụng thay vì one-way anova? Cảm ơn trước.
ebrahimi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.