Làm thế nào để tôi nghiên cứu mối tương quan giữa điểm số giữa một biến liên tục và biến phân loại?


19

Một biện pháp "tương quan" có ý nghĩa để nghiên cứu mối quan hệ giữa hai loại biến như vậy là gì?

Trong R, làm thế nào để làm điều đó?


1
trước khi bạn hỏi "bạn học như thế nào", bạn nên có câu trả lời cho "bạn định nghĩa như thế nào" :-) BTW, nếu bạn chiếu biến phân loại thành số nguyên, bạn đã có thể thực hiện tương quan.
Tò mò

2
@Tomas, nếu bạn làm điều đó, sức mạnh ước tính của mối quan hệ phụ thuộc vào cách bạn quyết định gắn nhãn các điểm, điều này thật đáng sợ :)
Macro

@Macro, bạn đã đúng - một lập luận vững chắc khác để có một định nghĩa tốt!
Tò mò

@Macro Trừ khi tôi hiểu nhầm quan điểm của bạn, không. Tương quan là không nhạy cảm với các biến đổi tuyến tính. Vậy cor (X, Y) = cor (a + bX, Y) cho hữu hạn a và b. Việc dán nhãn lại 0/1 là 1/11 không liên quan gì đến việc sử dụng var hoặc biến đổi tuyến tính của nó.
Alexis

@Cquil xem bình luận của tôi để Macro ở trên. Và lưu ý: (1) X <- sample(c(0,1),replace=TRUE,size=100)(2) Y <- X + rnorm(100,0.5)(3) corr(Y,X)(4) X <- 1 + 10*X(5) corr(X,Y): kết quả tương tự cho cả hai mối tương quan!
Alexis

Câu trả lời:


19

Trong một lúc, hãy bỏ qua vấn đề liên tục / rời rạc. Về cơ bản mối tương quan đo lường sức mạnh của mối quan hệ tuyến tính giữa các biến và dường như bạn đang yêu cầu một cách khác để đo lường sức mạnh của mối quan hệ. Bạn có thể quan tâm đến việc xem xét một số ý tưởng từ lý thuyết thông tin . Cụ thể tôi nghĩ bạn có thể muốn xem thông tin lẫn nhau . Thông tin lẫn nhau về cơ bản cung cấp cho bạn một cách để định lượng mức độ biết trạng thái của một biến cho bạn biết về biến khác. Tôi thực sự nghĩ rằng định nghĩa này gần với ý nghĩa của hầu hết mọi người khi họ nghĩ về mối tương quan.

Đối với hai biến rời rạc X và Y, phép tính như sau:

I(X;Y)=yYxXp(x,y)log(p(x,y)p(x)p(y))

Đối với hai biến liên tục, chúng tôi tích hợp thay vì lấy tổng:

I(X;Y)=YXp(x,y)log(p(x,y)p(x)p(y))dxdy

Trường hợp sử dụng cụ thể của bạn là cho một rời rạc và một liên tục. Thay vì tích hợp trên một tổng hoặc tổng trên một tích phân, tôi tưởng tượng việc chuyển đổi một trong các biến thành loại khác sẽ dễ dàng hơn. Một cách điển hình để làm điều đó là phân biệt biến liên tục của bạn thành các thùng rời rạc.

Có một số cách để loại bỏ dữ liệu (ví dụ: các khoảng bằng nhau) và tôi tin rằng gói entropy sẽ hữu ích cho các tính toán MI nếu bạn muốn sử dụng R.


1
Cảm ơn. Nhưng một MI cao tương ứng với Corr = 1 như thế nào và MI thấp tương ứng với Corr = 0 như thế nào?
Luna

MI có tối thiểu là 0 và MI = 0 khi và chỉ khi các biến độc lập. MI không có giới hạn trên không đổi mặc dù (giới hạn trên có liên quan đến các entropies của các biến), vì vậy bạn có thể muốn xem xét một trong các phiên bản chuẩn hóa nếu điều đó quan trọng với bạn.
Michael McGowan

6

Nếu biến phân loại là thứ tự và bạn biến biến liên tục thành một vài khoảng tần số, bạn có thể sử dụng Gamma. Cũng có sẵn cho các dữ liệu được ghép thành dạng thứ tự là Kendal's tau, Stuart's tau và Bolog D. Tất cả đều có sẵn trong SAS sử dụng Proc Freq. Tôi không biết làm thế nào chúng được tính bằng cách sử dụng các thói quen R. Đây là một liên kết đến một bài thuyết trình cung cấp thông tin chi tiết: http : // fac Khoa.unlv.edu/cstream/ppts/QM722/measureofassociation.ppt#260,5, Kho báu của Hiệp hội cho các biến danh nghĩa và thông thường


1

Một biến phân loại thực sự chỉ là một tập hợp các biến chỉ báo. Một ý tưởng cơ bản của lý thuyết đo lường là một biến như vậy là bất biến đối với các loại, vì vậy sẽ không có ý nghĩa khi sử dụng nhãn số của các loại trong bất kỳ thước đo nào về mối quan hệ giữa một biến khác (ví dụ: 'tương quan') . Vì lý do này, và đo lường mối quan hệ giữa một biến liên tục và biến phân loại nên hoàn toàn dựa trên các biến chỉ báo xuất phát từ biến sau.

Cho rằng bạn muốn đo lường "tương quan" giữa hai biến, nên xem xét mối tương quan giữa biến ngẫu nhiên liên tục và biến ngẫu nhiên chỉ báo tôi xuất phát từ biến phân loại. Cho φ P ( I = 1 ) ta có:XIϕP(I=1)

Cov(I,X)=E(IX)E(I)E(X)=ϕ[E(X|I=1)E(X)],

cung cấp cho:

Corr(I,X)=ϕ1ϕE(X|I=1)E(X)S(X).

Vì vậy, mối tương quan giữa một biến ngẫu nhiên liên tục và một chỉ số biến ngẫu nhiên tôi là một chức năng khá đơn giản của chỉ số khả φ và đạt được tiêu chuẩn hóa trong giá trị kỳ vọng của X từ điều trên tôi = 1 . Lưu ý rằng mối tương quan này không yêu cầu bất kỳ sự rời rạc của biến ngẫu nhiên liên tục.XIϕXI=1


Đối với một biến phân loại chung có phạm vi 1 , . . . , M bạn sẽ sau đó chỉ cần mở rộng ý tưởng này để có một vector của các giá trị tương quan cho từng kết quả của biến phân loại. Đối với bất kỳ kết quả C = k chúng ta có thể xác định tương ứng với chỉ số tôi kI ( C = k ) và chúng ta có:C1,...,mC=kIkI(C=k)

Corr(Ik,X)=ϕk1ϕkE(X|C=k)E(X)S(X).

Sau đó chúng tôi có thể xác định là vectơ các giá trị tương quan đối với từng loại của biến ngẫu nhiên phân loại. Đây thực sự là ý nghĩa duy nhất trong đó có ý nghĩa khi nói về 'tương quan' cho một biến ngẫu nhiên phân loại.Corr(C,X)(Corr(I1,X),...,Corr(Im,X))

( Lưu ý: Thật đơn giản khi chỉ ra rằng và do đó vectơ tương quan cho một biến ngẫu nhiên phân loại phải tuân theo ràng buộc này. biến ngẫu nhiên và độ lệch chuẩn của X , bạn có thể rút ra vectơ từ bất kỳ m - 1 trong các phần tử của nó.)kCov(Ik,X)=0Xm1


Giải trình trên là dành cho các giá trị tương quan thực sự, nhưng rõ ràng chúng phải được ước tính trong một phân tích nhất định. Ước tính tương quan chỉ báo từ dữ liệu mẫu là đơn giản và có thể được thực hiện bằng cách thay thế các ước tính phù hợp cho từng bộ phận. (Bạn có thể sử dụng các phương pháp ước tính fancier nếu bạn thích.) Cho dữ liệu mẫu chúng ta có thể ước tính các phần của phương trình tương quan là:(x1,c1),...,(xn,cn)

ϕ^k1ni=1nI(ci=k).

E^(X)x¯1ni=1nxi.

E^(X|C=k)x¯k1ni=1nxiI(ci=k)/ϕ^k.

S^(X)sX1n1i=1n(xix¯)2.

Substitution of these estimates would yield a basic estimate of the correlation vector. If you have parametric information on X then you could estimate the correlation vector directly by maximum likelihood or some other technique.


0

R package mpmi has the ability to calculate mutual information for mixed variable case, namely continuous and discrete. Although there are other statistical options like (point) biserial correlation coefficient to be useful here, it would be beneficial and highly recommended to calculate mutual information since it can detect associations other than linear and monotonic.


0

If X is a continuous random variable and Y is a categorical r.v.. the observed correlation between X and Y can be measured by

  1. the point-biserial correlation coefficient, if Y is dichotomous;
  2. the point-polyserial correlation coefficient, if Y is polychotomous with ordinal categories.

It should be noted, though, that the point-polyserial correlation is just a generalization of the point-biserial.

For a broader view, here's a table from Olsson, Drasgow & Dorans (1982)[1].

correlation coefficients

[1]: Source: Olsson, U., Drasgow, F., & Dorans, N. J. (1982). The polyserial correlation coefficient. Psychometrika, 47(3), 337–347

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.