Mối tương quan giữa các biến liên tục và phân loại (danh nghĩa)


42

Tôi muốn tìm mối tương quan giữa một biến liên tục (biến phụ thuộc) và biến phân loại (danh nghĩa: giới tính, biến độc lập). Dữ liệu liên tục thường không được phân phối. Trước đây, tôi đã tính toán nó bằng cách sử dụng Spearman . Tuy nhiên, tôi đã nói rằng nó không đúng.ρ

Trong khi tìm kiếm trên internet, tôi thấy rằng boxplot có thể cung cấp một ý tưởng về mức độ chúng được liên kết; Tuy nhiên, tôi đang tìm kiếm một giá trị định lượng như hệ số thời điểm sản phẩm Pearson hay Spearman . Bạn có thể vui lòng giúp tôi làm thế nào để làm điều này? Hoặc, thông báo về phương pháp nào sẽ phù hợp?ρ

Hệ số điểm Biserial sẽ là lựa chọn đúng đắn?


Thông thường, người ta không thể chỉ tư vấn trên cơ sở định dạng của dữ liệu! Dữ liệu thể hiện điều gì và bạn muốn đạt được điều gì với phân tích của mình?
kjetil b halvorsen

1
Cảm ơn kjetil, tôi muốn so sánh mối liên hệ giữa giới tính và các biến liên tục khác. Đơn giản chỉ cần biết, biến nào liên tục có tương quan vừa phải / mạnh và biến nào không.
Md. Ferdous Wahid

1
Có vẻ như là một bản sao của thống kê.stackexchange.com/questions / 25229 / Bạn có thể cho chúng tôi biết nếu câu trả lời cho câu hỏi đó giúp bạn không?
kjetil b halvorsen

Vâng, câu hỏi của tôi tương tự như vậy. Tuy nhiên, tôi nhận được một phản hồi mà nhà phê bình chỉ ra rằng Spearman là không thích hợp. Cỡ mẫu của tôi là 31. Theo câu trả lời (liên kết được cung cấp), không bình thường sẽ không thành vấn đề và bất kỳ phương pháp tương quan nào cũng có thể được sử dụng (Spearman / Pearson / Point-Biserial) cho bộ dữ liệu lớn. Nó sẽ đúng cho các tập dữ liệu nhỏ quá? Nhân tiện, giới tính không phải là một thang đo danh nghĩa được tạo ra một cách giả tạo. Các liên kết trên nên sử dụng hệ số tương quan biserial. ρ
Md. Ferdous Wahid

3
Mối tương quan giữa số liệu thống kê danh nghĩa và khoảng thời gian hoặc biến số thứ tự.stackexchange.com / q / 73065/3277
ttnphns

Câu trả lời:


25

ρ(Zi,Ii)ZIρZ,IIρvề cơ bản sẽ trở thành một số phiên bản thay đổi của các cấp bậc trung bình giữa hai nhóm. Nó sẽ đơn giản hơn (dễ hiểu hơn) chỉ đơn giản là so sánh các phương tiện! Một cách tiếp cận khác là như sau.

X1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjMXi<YjWθ
MM+W

5
Tương quan xếp hạng của Spearman chỉ là tương quan của Pearson được áp dụng cho các cấp bậc của biến số và các giá trị của biến nhị phân ban đầu (xếp hạng không có hiệu lực ở đây). Vì vậy, rho của Spearman là tương tự xếp hạng của mối tương quan điểm-biserial. Tôi không thấy bất kỳ vấn đề nào trong việc sử dụng rho của Spearman một cách mô tả trong tình huống này.
Michael M

Michael Mayer: Vâng, nó có thể hoạt động, có thể, nhưng có điểm nào trong đó không? Nó không cung cấp thông tin không có trong một số khác biệt của phương tiện! và đó là trực tiếp hơn có thể giải thích.
kjetil b halvorsen

1
Là một sự khác biệt trong hàng ngũ đơn giản hơn nhiều để diễn giải như rho của Spearman? Ngay cả nếu vậy, bạn sẽ gọi Spearman là rho sai? Đáng buồn là chúng ta không thấy các nhà phê bình lý luận.
Michael M

1
Những gì bạn đề nghị là tốt đẹp. Nó dường như có liên quan đến thống kê kiểm tra của bài kiểm tra hai mẫu của Wilcoxon, bản thân nó tương tự như mối tương quan xếp hạng của Kendall giữa kết quả số và biến nhóm nhị phân.
Michael M

1
θθ^1θ

8

Bây giờ tôi đang có cùng một vấn đề. Tôi chưa thấy ai tham khảo điều này cả, nhưng tôi đang nghiên cứu Tương quan điểm-Biserial được xây dựng dựa trên hệ số tương quan Pearson. Nó có nghĩa là cho một biến liên tục và một biến nhị phân.

Đọc nhanh: https://statistic.laerd.com/spss-tutorials/point-biserial-correlation-USE-spss-statistic.php

Tôi sử dụng R, nhưng tôi thấy SPSS có tài liệu tuyệt vời.


1
Tài liệu tham khảo tuyệt vời để tìm mối tương quan giữa một biến liên tục và biến nhị phân! Tuy nhiên, các giả định được liệt kê là hơi mạnh.
SUNDONG

1

Có vẻ như sự so sánh thích hợp nhất sẽ là so sánh các trung vị (vì nó không bình thường) và phân phối giữa các loại nhị phân. Tôi muốn đề nghị thử nghiệm Mann-Whitney không tham số ...


6
Mặc dù Mann-Whitney sẽ là một cách để xác định sự thay đổi vị trí trong một biến số (hoặc thực sự là các dạng thống trị ngẫu nhiên tổng quát hơn) qua một biến phân loại nhị phân, Mann-Whitney không so sánh các trung vị, ít nhất là không có các giả định bổ sung.
Glen_b

1

Đối với sự cố đã chỉ định, đo Vùng dưới Đường cong của Đường cong Đặc tính của Người vận hành Máy thu có thể giúp ích.

Tôi không phải là một chuyên gia trong việc này vì vậy tôi cố gắng giữ cho nó đơn giản. Hãy bình luận về bất kỳ lỗi hoặc giải thích sai để tôi có thể thay đổi nó.

xyxxx

xx

xx

Tuyên bố trên được tính toán với Vùng dưới đường cong.

Ví dụ về tương quan tốt (phải) và chống tương quan công bằng (trái) Ví dụ về tương quan tốt (phải) và chống tương quan công bằng (trái).


1
Chào mừng đến với CV! Câu trả lời của bạn hơi quá ngắn và dường như không giúp tìm thấy: "mối tương quan giữa một biến liên tục (biến phụ thuộc) và biến phân loại (danh nghĩa: giới tính, biến độc lập)" . Bạn có thể chỉnh sửa câu trả lời của mình để đưa vào cách AUROC được yêu cầu đạt được điều này không?
Frans Rodenburg

-3

bạn nên sử dụng xu hướng tuyến tính thay thế cho sự độc lập. nếu bạn không biết cách này, bạn có thể nghiên cứu giới thiệu về phân tích dữ liệu phân loại trang 41.


4
Đã có một câu trả lời được chấp nhận. Và không rõ câu trả lời của bạn đóng góp gì. Bạn có thể giải thích thêm? Tôi giả sử bạn tham khảo giới thiệu của Agresti về phân tích dữ liệu phân loại. Vui lòng cung cấp trích dẫn đầy đủ.
TEG - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.