Mối quan hệ giữa các hệ số tương quan phi, Matthews và Pearson


13

Các hệ số tương quan phi và Matthews có cùng một khái niệm không? Làm thế nào chúng có liên quan hoặc tương đương với hệ số tương quan Pearson cho hai biến nhị phân? Tôi giả sử các giá trị nhị phân là 0 và 1.


Mối tương quan của Pearson giữa hai biến ngẫu nhiên Bernoulli y là:xy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

Ở đâu

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Hệ số Phi từ Wikipedia:

Trong thống kê, hệ số phi (hay còn gọi là "trung bình hệ số dự phòng vuông" và biểu hiện bằng hoặc r φ ) là một thước đo của hiệp hội cho hai biến nhị phân được giới thiệu bởi Karl Pearson. Biện pháp này tương tự như hệ số tương quan Pearson trong cách giải thích của nó. Trên thực tế, hệ số tương quan Pearson ước tính cho hai biến nhị phân sẽ trả về hệ số phi ...ϕrϕ

Nếu chúng ta có bảng 2 × 2 cho hai biến ngẫu nhiên yxy

nhập mô tả hình ảnh ở đây

Hệ số phi mô tả sự kết hợp của yφ = n 11 n 00 - n 10 n 01xy

ϕ=n11n00n10n01n1n0n0n1

Hệ số tương quan Matthews từ Wikipedia:

Hệ số tương quan Matthews (MCC) có thể được tính trực tiếp từ ma trận nhầm lẫn bằng công thức:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

Trong phương trình này, TP là số lượng dương thực sự, TN số lượng âm tính thực sự, FP số lượng dương tính giả và FN số lượng âm tính giả. Nếu bất kỳ một trong bốn tổng trong mẫu số bằng 0, mẫu số có thể được đặt tùy ý thành một; điều này dẫn đến hệ số tương quan Matthews bằng 0, có thể được hiển thị là giá trị giới hạn chính xác.

Câu trả lời:


14

Vâng, Chúng giống nhau. Hệ số tương quan Matthews chỉ là một ứng dụng cụ thể của hệ số tương quan Pearson vào bảng nhầm lẫn.

Một bảng dự phòng chỉ là một bản tóm tắt của dữ liệu cơ bản. Bạn có thể chuyển đổi nó trở lại từ số đếm được hiển thị trong bảng dự phòng thành một hàng cho mỗi lần quan sát.

Hãy xem xét ma trận nhầm lẫn ví dụ được sử dụng trong bài viết Wikipedia với 5 dương tính thật, 17 âm tính thật, 2 dương tính giả và 3 âm tính giả

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000

Cảm ơn, Peter! Về mặt toán học, tại sao phi và Mathew tương đương với Pearson cho hai biến ngẫu nhiên nhị phân?
Tim

Nếu bạn lấy định nghĩa về tương quan Pearson và thao tác nó để nó liên quan đến số đếm thay vì tính tổng của sự khác biệt giữa các quan sát riêng lẻ và phương tiện, bạn sẽ có được công thức Matthews. Tôi đã không thực sự làm điều này, nhưng nó phải đơn giản hợp lý.
Peter Ellis

2

Đầu tiên, có một lỗi đánh máy trong câu hỏi: E[xy] không phải n1n1n2 nhưng đúng hơn

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0= =n11n

Thứ hai, chìa khóa để thể hiện điều đó ρ= =φ

n11n-n1n1= =n11(n01+n10+n11+n00)-(n11+n10)(n11+n01)= =n11n00-n10n01
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.