Có ý nghĩa khi tính toán tương quan Pearson hoặc Spearman giữa hai vectơ Boolean không?


42

Có hai vectơ Boolean, chỉ chứa 0 và 1. Nếu tôi tính tương quan Pearson hoặc Spearman, chúng có ý nghĩa hay hợp lý không?


2
Nếu cả hai biến là nhị phân, Pearson = Spearman = Kendall's tau. Vâng, nó có thể có sence. Với dữ liệu nhị phân (boolean) thực sự, nó cũng có thể tính toán "Pearson" trên dữ liệu mà không cần định tâm, đó sẽ là cosine.
ttnphns

1
... và = Phi (Chi-vuông tiêu chuẩn) đưa chúng ta từ quy mô sang bảng dự phòng.
ttnphns

Câu trả lời:


34

Tương quan Pearson và Spearman được định nghĩa miễn là bạn có một số và một số cho cả hai biến nhị phân, giả sử và . Thật dễ dàng để có được một ý tưởng định tính tốt về ý nghĩa của chúng bằng cách nghĩ về một biểu đồ phân tán của hai biến. Rõ ràng, chỉ có bốn khả năng (do đó, việc jitter để lắc các điểm giống hệt nhau để hình dung là một ý tưởng tốt). Ví dụ, trong mọi tình huống trong đó hai vectơ giống hệt nhau, có một số 0 và một số 1 trong mỗi trường hợp, sau đó theo định nghĩa và tương quan nhất thiết phải là . Tương tự, có thể là01yx(0,0),(0,1),(1,0),(1,1)y=x1y=1x- 1và sau đó tương quan là .1

Đối với thiết lập này, không có phạm vi cho các quan hệ đơn điệu không tuyến tính. Khi nhận các cấp bậc và giây theo quy ước midrank thông thường, các cấp bậc chỉ là một phép biến đổi tuyến tính của gốc và giây và tương quan Spearman nhất thiết phải giống hệt với tương quan Pearson. Do đó, không có lý do để xem xét tương quan Spearman riêng biệt ở đây, hoặc thực sự ở tất cả.0101

Mối tương quan phát sinh một cách tự nhiên đối với một số vấn đề liên quan đến giây và giây, ví dụ như trong nghiên cứu các quá trình nhị phân theo thời gian hoặc không gian. Tuy nhiên, về tổng thể, sẽ có những cách nghĩ tốt hơn về dữ liệu đó, phụ thuộc phần lớn vào động cơ chính của một nghiên cứu như vậy. Ví dụ, thực tế là các mối tương quan có ý nghĩa nhiều không có nghĩa là hồi quy tuyến tính là một cách tốt để mô hình hóa một phản ứng nhị phân. Nếu một trong các biến nhị phân là một phản hồi, thì hầu hết những người thống kê sẽ bắt đầu bằng cách xem xét một mô hình logit.01


1
Điều đó có nghĩa là trong tình huống này, hệ số tương quan Pearson hoặc Spearman không phải là một số liệu tương tự tốt cho hai vectơ nhị phân này?
Zhilong Jia

Có theo nghĩa là nó không đo được độ tương tự và không được xác định cho tất cả 0 hoặc tất cả 1 cho cả hai vectơ.
Nick Cox

Trường hợp vectơ 2 giống hệt nhau hoặc 'đối diện' không rõ ràng đối với tôi. Nếu x = c (1,1,1,1,1) và y = (0,0,0,0,0) thì y = 1-x và có vẻ như bạn đang nói đây phải là trường hợp theo định nghĩa , ngụ ý tương quan của -1. Tương đương y = x - 1 ngụ ý tương quan +1. Chỉ có 1 điểm (5 lần lặp lại) trên một biểu đồ phân tán để bất kỳ đường thẳng nào cũng có thể được vẽ qua nó. Nó cảm thấy như sự tương quan là không xác định trong trường hợp này. Xin lỗi nếu tôi hiểu nhầm ý của bạn. @NickCox
PM.

2
Không; Tôi không nói rằng, như tôi đã chỉ ra trong câu đầu tiên của tôi rằng bạn phải có một kết hợp 0 ​​và 1 để tương quan được xác định. Mặt khác, nếu SD của một trong hai biến là 0 thì mối tương quan là không xác định. Nhưng tôi đã chỉnh sửa câu trả lời của mình để đề cập đến điều đó hai lần.
Nick Cox

15

Có các số liệu tương tự chuyên biệt cho các vectơ nhị phân, chẳng hạn như:

  • Jaccard-Needham
  • Xúc xắc
  • Yule
  • Russell-Rao
  • Sokal-Michener
  • Rogers-Tanimoto
  • Kulzinsky

Vân vân.

Để biết chi tiết, xem tại đây .


5
Chắc chắn có nhiều tài liệu tham khảo đáng tin cậy và toàn diện hơn. Ngay cả ở mức độ để có được tên của tác giả, lưu ý Kulczyński và Tanimoto. Xem ví dụ Hubálek, Z. 1982. Các hệ số liên kết và tương tự, dựa trên dữ liệu nhị phân (hiện diện - vắng mặt): Một đánh giá. Nhận xét sinh học 57: 669 Từ689.
Nick Cox

5
Họ rõ ràng đã viết sai chính tả 'Tanimoto' nhưng 'Kulzinsky' đã được đơn giản hóa một cách có chủ đích. Tài liệu tham khảo của bạn đáng tin cậy hơn mà không nghi ngờ gì nhưng mọi người đều không thể truy cập được.
Digio

0

Tôi không khuyên bạn nên sử dụng hệ số tương quan của Pearson cho dữ liệu nhị phân, xem ví dụ phản tác dụng sau:

set.seed(10) 
a = rbinom(n=100, size=1, prob=0.9) 
b = rbinom(n=100, size=1, prob=0.9)

trong hầu hết các trường hợp cả hai đều cho 1

table(a,b)

> table(a,b)
   b
a    0  1
  0  0  3
  1  9 88

nhưng mối tương quan không cho thấy điều này

cor(a, b, method="pearson")

> cor(a, b, method="pearson")
[1] -0.05530639

Một thước đo tương tự nhị phân như chỉ số Jaccard cho thấy tuy nhiên mối liên kết cao hơn nhiều:

install.packages("clusteval")
library('clusteval')
cluster_similarity(a,b, similarity="jaccard", method="independence")

> cluster_similarity(a,b, similarity="jaccard", method="independence")
[1] 0.7854966

Tại sao lại thế này? Xem ở đây hồi quy bivariate đơn giản

plot(jitter(a, factor = .25), jitter(b, factor = .25), xlab="a", ylab="b", pch=15, col="blue", ylim=c(-0.05,1.05), xlim=c(-0.05,1.05))
abline(lm(a~b), lwd=2, col="blue")
text(.5,.9,expression(paste(rho, " = -0.055")))

vẽ bên dưới (thêm tiếng ồn nhỏ để làm cho số điểm rõ ràng hơn) Đường hồi quy Bivariate

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.