Tại sao tương quan không hữu ích khi một trong các biến là phân loại?


14

Đây là một chút kiểm tra ruột, xin vui lòng giúp tôi xem nếu tôi hiểu sai khái niệm này, và theo cách nào.

Tôi có một sự hiểu biết về chức năng của mối tương quan nhưng tôi cảm thấy hơi khó hiểu khi thực sự tự tin giải thích các nguyên tắc đằng sau sự hiểu biết chức năng đó.

Theo tôi hiểu, tương quan thống kê (trái ngược với cách sử dụng chung hơn của thuật ngữ này) là một cách để hiểu hai biến liên tục và cách mà chúng làm hoặc không có xu hướng tăng hoặc giảm theo cách tương tự.

Lý do bạn không thể chạy các mối tương quan trên, ví dụ, một biến liên tục và một biến phân loại là vì không thể tính được hiệp phương sai giữa hai, vì biến phân loại theo định nghĩa không thể mang lại giá trị trung bình và do đó thậm chí không thể nhập vào biến đầu tiên các bước phân tích thống kê.

Có đúng không?


2
Dưới đây là các bài giảng được đánh máy từ một lớp tôi dạy chủ yếu liên quan đến tương quan dân số (không phải mẫu) và hiệp phương sai.virginia.edu/~trb5me/3120_slides/5/5.2/5.2.pdf
Taylor

3
Lý do đơn giản, hãy tưởng tượng rằng bạn hỏi mọi người "màu sắc yêu thích của bạn là gì?" và họ trả lời "đỏ", "xanh", "xanh", "cam", "vàng", ..., những gì được mã hóa trong tập dữ liệu của bạn là 1, 2, 3, ... Tiếp theo, bạn tính hệ số tương quan giữa biến như vậy với sự hài lòng công việc và nhận giá trị 0,21. Nó có nghĩa là gì? Bạn có thể cung cấp bất kỳ giải thích có ý nghĩa?
Tim

2
Liên quan chặt chẽ (thậm chí là trùng lặp?) - Mối tương quan giữa biến danh nghĩa (IV) và biến liên tục (DV)
Cá bạc

@Taylor: Chúng ta sử dụng cái gì khi cả hai biến liên tục / số nhưng một trong số chúng là ngẫu nhiên và biến còn lại thì không, ví dụ, số giờ nghiên cứu so với GPA?
MSIS

Câu trả lời:


16

Tương quan là hiệp phương sai chuẩn hóa , tức là hiệp phương sai của xy chia cho độ lệch chuẩn của xy . Hãy để tôi minh họa điều đó.

Nói một cách lỏng lẻo, số liệu thống kê có thể được tóm tắt là mô hình phù hợp với dữ liệu và đánh giá mô hình mô tả các điểm dữ liệu đó tốt như thế nào ( Kết quả = Mô hình + Lỗi ). Một cách để làm điều đó là tính tổng các sai lệch hoặc phần dư (res) từ mô hình:

res=(xix¯)

Nhiều tính toán thống kê được dựa trên điều này, bao gồm. hệ số tương quan (xem bên dưới).

Dưới đây là một tập dữ liệu mẫu được thực hiện R(phần dư được chỉ định là các dòng màu đỏ và giá trị của chúng được thêm bên cạnh chúng):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

enter image description here

Bằng cách xem xét từng điểm dữ liệu riêng lẻ và trừ đi giá trị của nó khỏi mô hình (ví dụ: giá trị trung bình; trong trường hợp này X=11Y=5.4), người ta có thể đánh giá độ chính xác của mô hình. Người ta có thể nói mô hình quá / đánh giá thấp giá trị thực tế. Tuy nhiên, khi tổng hợp tất cả các sai lệch so với mô hình, tổng sai số có xu hướng bằng 0 , các giá trị triệt tiêu lẫn nhau vì có các giá trị dương (mô hình đánh giá thấp một điểm dữ liệu cụ thể) và các giá trị âm (mô hình đánh giá quá cao một dữ liệu cụ thể điểm). Để giải quyết vấn đề này, các tổng của sai lệch được bình phương và bây giờ được gọi là tổng của bình phương ( SS ):

SS=(xix¯)(xix¯)=(xix¯)2

n1s2

s2=SSn1=(xix¯)(xix¯)n1=(xix¯)2n1

Để thuận tiện, căn bậc hai của phương sai mẫu có thể được lấy, được gọi là độ lệch chuẩn mẫu:

s=s2=SSn1=(xix¯)2n1

Bây giờ, hiệp phương sai đánh giá xem hai biến có liên quan với nhau không. Một giá trị dương chỉ ra rằng khi một biến lệch khỏi giá trị trung bình, biến còn lại lệch theo cùng một hướng.

covx,y=(xix¯)(yiy¯)n1

r

r=covx,ysxsy=(x1x¯)(yiy¯)(n1)sxsy

In this, case the Pearson correlation coefficient is r=0.87, có thể được coi là một mối tương quan mạnh mẽ (mặc dù điều này cũng tương đối tùy thuộc vào lĩnh vực nghiên cứu). Để kiểm tra điều này, ở đây một âm mưu khác với Xtrên trục x và Ytrên trục y:

enter image description here

Câu chuyện dài quá, vâng, cảm giác của bạn là đúng nhưng tôi hy vọng câu trả lời của tôi có thể cung cấp một số bối cảnh.


1
Điều này cực kỳ hữu ích - khi cố gắng đào sâu sự hiểu biết của riêng tôi, tôi nghĩ rằng nếu tôi không thể giải thích đầy đủ cho ai đó mà không có nền tảng về thống kê, tôi không hiểu nó cũng như tôi nghĩ.
Toof

8

Bạn đang (gần) đúng. Hiệp phương sai (và do đó cũng có mối tương quan) chỉ có thể được tính giữa các biến số. Điều đó bao gồm các biến liên tục nhưng cũng có các biến số rời rạc.

Các biến phân loại có thể được sử dụng để tính toán tương quan chỉ đưa ra một mã số hữu ích cho chúng, nhưng điều này không có khả năng có được lợi thế thực tế - có thể nó có thể hữu ích cho một số biến phân loại hai cấp, nhưng các công cụ khác có thể phù hợp hơn.


Để thêm vào điểm chính, hệ số tương quan thời điểm sản phẩm Pearson biểu thị mức độ của mối quan hệ tuyến tính giữa hai biến. Các biện pháp không tham số như Spearman's rho hay Kendall's tau đặc trưng cho việc X và Y có xu hướng tăng hay giảm cùng nhau như thế nào (hành xử ở một mức độ như một mối quan hệ đơn điệu không nhất thiết phải là tuyến tính.
Michael R. Chernick

@Pere: Chúng ta sử dụng gì khi có hai biến liên tục nhưng chỉ một trong số đó là Stochastic, ví dụ: Giờ tập thể dục so với Trọng lượng.?
MSIS

1
@MSIS - Đó phải là một câu hỏi khác nhau, nhưng mối tương quan có thể được sử dụng ngay cả khi một biến không ngẫu nhiên.
Pere

1
@Pere: Tôi đã hỏi, trong trường hợp bạn quan tâm: stats.stackexchange.com/questions/435257/ dọa
MSIS

3

Hoàn toàn không có gì sai với tương quan điện toán trong đó một trong các biến là phân loại. Một mối tương quan tích cực mạnh mẽ sẽ ngụ ý rằng bật biến phân loại của bạn (hoặc tắt tùy thuộc vào quy ước của bạn) gây ra sự gia tăng trong phản ứng. Ví dụ, điều này có thể xảy ra khi tính toán hồi quy logistic trong đó các biến được phân loại: dự đoán khả năng bị đau tim do bệnh đi kèm như bệnh tiểu đường và bmi. Trong trường hợp này, BMI sẽ có mối tương quan rất mạnh với các cơn đau tim. Bạn sẽ kết luận rằng điều đó không hữu ích?

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.