Sử dụng quy ước a, b, c, d của bảng 4 lần, như ở đây ,
Y
1 0
-------
1 | a | b |
X -------
0 | c | d |
-------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.
thay thế và nhận
1−2(b+c)n=n−2b−2cn=(a+d)−(b+c)a+b+c+d= Hệ số tương tự Hamann . Gặp nó, ví dụ ở đây . Để trích dẫn:
Biện pháp tương tự Hamann. Biện pháp này đưa ra xác suất rằng một đặc tính có cùng trạng thái trong cả hai mục (hiện diện ở cả hai hoặc không có cả hai) trừ đi xác suất rằng một đặc tính có các trạng thái khác nhau trong hai mục (hiện diện trong một mục và vắng mặt đối tượng khác). HAMANN có phạm vi từ to1 đến +1 và có liên quan đơn điệu đến độ tương tự Kết hợp đơn giản (SM), độ tương tự Sokal & Sneath 1 (SS1) và độ tương tự Rogers & Tanimoto (RT).
Bạn có thể muốn so sánh công thức Hamann với công thức tương quan phi (mà bạn đề cập) được đưa ra trong các điều khoản a, b, c, d. Cả hai đều là các biện pháp "tương quan" - dao động từ -1 đến 1. Nhưng hãy nhìn xem, tử số của Phiad−bcsẽ chỉ tiếp cận 1 khi cả a và d đều lớn (hoặc tương tự -1, nếu cả b và c đều lớn): sản phẩm, bạn biết ... Nói cách khác, tương quan Pearson và đặc biệt là thôi miên dữ liệu nhị phân của nó, Phi, rất nhạy cảm với tính đối xứng của các phân phối biên trong dữ liệu. Tử số của Hamann(a+d)−(b+c), có các khoản tiền thay cho các sản phẩm, không nhạy cảm với nó: một trong hai triệu hồi trong một cặp là đủ lớn để hệ số đạt gần 1 (hoặc -1). Do đó, nếu bạn muốn một "tương quan" (hoặc tương quan gần đúng) đo lường thách thức hình dạng phân phối biên - chọn Hamann trên Phi.
Hình minh họa:
Crosstabulations:
Y
X 7 1
1 7
Phi = .75; Hamann = .75
Y
X 4 1
1 10
Phi = .71; Hamann = .75