Tên của phép đo tương quan / liên kết này giữa các biến nhị phân là gì?


7

Có một số biện pháp liên kết (hoặc dự phòng hoặc tương quan) giữa hai biến ngẫu nhiên nhị phân và , trong số các biến khácXY

Tôi tự hỏi làm thế nào con số sau đây liên quan đến các biện pháp đã biết, nếu nó thú vị về mặt thống kê và dưới tên đó (có thể) được thảo luận:κ

κ=12N|XY|

vớisố lượng mẫu có thuộc tính hoặc thuộc tính nhưng không phải cả hai (độc quyền OR, chênh lệch đối xứng), tổng số mẫu. Giống như hệ số phi, biểu thị sự đồng ý hoặc không đồng ý hoàn hảo và cho thấy không có mối quan hệ nào|XY|XYNκ=±1κ=0

Câu trả lời:


10

Sử dụng quy ước a, b, c, d của bảng 4 lần, như ở đây ,

               Y
             1   0
            -------
        1  | a | b |
     X      -------
        0  | c | d |
            -------
a = number of cases on which both X and Y are 1
b = number of cases where X is 1 and Y is 0
c = number of cases where X is 0 and Y is 1
d = number of cases where X and Y are 0
a+b+c+d = n, the number of cases.

thay thế và nhận

12(b+c)n=n2b2cn=(a+d)(b+c)a+b+c+d= Hệ số tương tự Hamann . Gặp nó, ví dụ ở đây . Để trích dẫn:

Biện pháp tương tự Hamann. Biện pháp này đưa ra xác suất rằng một đặc tính có cùng trạng thái trong cả hai mục (hiện diện ở cả hai hoặc không có cả hai) trừ đi xác suất rằng một đặc tính có các trạng thái khác nhau trong hai mục (hiện diện trong một mục và vắng mặt đối tượng khác). HAMANN có phạm vi từ to1 đến +1 và có liên quan đơn điệu đến độ tương tự Kết hợp đơn giản (SM), độ tương tự Sokal & Sneath 1 (SS1) và độ tương tự Rogers & Tanimoto (RT).

Bạn có thể muốn so sánh công thức Hamann với công thức tương quan phi (mà bạn đề cập) được đưa ra trong các điều khoản a, b, c, d. Cả hai đều là các biện pháp "tương quan" - dao động từ -1 đến 1. Nhưng hãy nhìn xem, tử số của Phiadbcsẽ chỉ tiếp cận 1 khi cả a và d đều lớn (hoặc tương tự -1, nếu cả b và c đều lớn): sản phẩm, bạn biết ... Nói cách khác, tương quan Pearson và đặc biệt là thôi miên dữ liệu nhị phân của nó, Phi, rất nhạy cảm với tính đối xứng của các phân phối biên trong dữ liệu. Tử số của Hamann(a+d)(b+c), có các khoản tiền thay cho các sản phẩm, không nhạy cảm với nó: một trong hai triệu hồi trong một cặp là đủ lớn để hệ số đạt gần 1 (hoặc -1). Do đó, nếu bạn muốn một "tương quan" (hoặc tương quan gần đúng) đo lường thách thức hình dạng phân phối biên - chọn Hamann trên Phi.

Hình minh họa:

Crosstabulations:
        Y
X    7     1
     1     7
Phi = .75; Hamann = .75

        Y
X    4     1
     1    10
Phi = .71; Hamann = .75

Là sự tương đồng Hamann được biết đến rộng rãi và được chấp nhận như một biện pháp thú vị?
Hans-Peter Stricker

1
Làm thế nào tôi có thể trả lời? Bao nhiêu rộng rãi / được chấp nhận sẽ đủ? :-) Chắc chắn ít được biết đến hơn so với tương quan phi hoặc tương tự Jaccard. Tuy nhiên, đôi khi nó được sử dụng. Google để xem ... Một thuộc tính quan trọng của nó là nó tương đương đơn điệu với ... (xem phần trích dẫn).
ttnphns

Xin lỗi vì câu hỏi ngây thơ của tôi và cảm ơn câu trả lời đầy thông tin của bạn :-)
Hans-Peter Stricker

Bạn có thể cho tôi một gợi ý, trong trường hợp điển hình nào tôi có thể muốn có "hình dạng phân phối biên tương quan" và chọn Hamann, và trong trường hợp nào tôi có thể muốn "hình dạng tương quan KHÔNG thách thức hình dạng phân phối biên" và chọn Phi?
Hans-Peter Stricker

Hans, nếu bạn đang nói về các lĩnh vực khoa học hoặc mục tiêu mà chúng ta có thể muốn sử dụng cái này hơn cái kia - tại sao không hỏi đó như một câu hỏi riêng biệt? Bởi vì nhiều người có thể đến để trả lời.
ttnphns

4

Hubalek, Z. Các hệ số liên kết và tương tự, dựa trên dữ liệu nhị phân (hiện diện - vắng mặt): một đánh giá (Biol. Rev., 1982) đánh giá và xếp hạng 42 hệ số tương quan khác nhau cho dữ liệu nhị phân. Chỉ có 3 người trong số họ đáp ứng desiderata thống kê cơ bản. Thật không may, vấn đề giải thích PRE (giảm tỷ lệ lỗi) không được thảo luận. Đối với bảng dự phòng sau:

        present  absent

present    a       b

absent     c       d

các biện pháp hiệp hội r phải đáp ứng các điều kiện bắt buộc sau đây:

  1. r(J,K)r(J,J)J,K

  2. min(r) nên ở a=d=0max(r) tại b=c=0

  3. r(J,K)=r(K,J)K,J

  4. phân biệt giữa hiệp hội tích cực và tiêu cực

  5. r nên tuyến tính với χ2 cho cả hai tập con adbc<0adbc>=0 (lưu ý rằng χ2 vi phạm điều kiện 4)

và lý tưởng là không bắt buộc sau đây:

  • phạm vi của r nên là một trong hai {1+1}, {0+1}, hoặc là {0}

  • r(b=c=0)>r(b=0c=0)

  • r(a=0)=min(r) (chặt chẽ hơn 2) ở trên)

  • r(a+1)r(a)=r(a+2)r(a+1)

  • r(a=0,b,c,d),r(a=1,b1,c1,d+1),r(a=2,b2,c2,d+2) nên được mịn màng

  • phân phối đồng nhất của r trong mẫu hoán vị

  • mẫu ngẫu nhiên từ dân số được biết đến a,b,c,d: r sẽ hiển thị ít thay đổi ngay cả trong các mẫu nhỏ

  • tính toán đơn giản, thời gian sử dụng máy tính thấp

Tất cả các điều kiện được đáp ứng bởi Jaccard (aa+b+c), Nga và Rao (aa+b+c+d) (cả hai phạm vi {0+1}) và McConnaughey (a2bc(a+b)×(a+c)) (phạm vi {1+1})


Điều này sẽ dễ đọc hơn nếu bạn có thể chỉnh sửa để sử dụng LATEXký hiệu. Tôi làm một phần nhỏ để hiển thị như thế nào.
kjetil b halvorsen

Vui lòng hợp nhất hai câu trả lời của bạn ở đây: chỉnh sửa một trong số chúng bằng cách thêm nội dung của câu hỏi kia, sau đó xóa một câu trả lời.
ttnphns

theo lệnh của bạn ;-)
Engelbert Buxbaum
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.