Hệ số tương tự cho dữ liệu nhị phân: Tại sao chọn Jaccard thay vì Russell và Rao?


20

Từ bách khoa toàn thư về khoa học thống kê, tôi hiểu rằng với các thuộc tính nhị phân (nhị phân: 1 = hiện tại; 0 = vắng mặt), chúng ta có thể tạo một bảng dự phòng cho hai đối tượng ij của một mẫu:p

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Chúng ta có thể tính toán từ các giá trị hệ số tương tự giữa các cặp đối tượng, cụ thể là hệ số Jaccard và hệ số Russell và Rao a

mộtmột+b+c
mộtmột+b+c+d= =mộtp.

Khi được tính toán, các hệ số này sẽ cho các giá trị khác nhau, nhưng tôi không thể tìm thấy bất kỳ tài nguyên nào giải thích lý do tại sao tôi nên chọn cái này hơn cái kia. Có phải chỉ vì một số bộ dữ liệu, sự vắng mặt đồng thời của cả hai thuộc tính ( ) không truyền tải bất kỳ thông tin nào?d

Câu trả lời:


14

Có tồn tại nhiều hệ số như vậy (hầu hết được thể hiện ở đây ). Chỉ cần cố gắng suy nghĩ về hậu quả của sự khác biệt trong công thức, đặc biệt là khi bạn tính toán một ma trận các hệ số.

Ví dụ, tưởng tượng rằng các đối tượng 1 và 2 tương tự nhau, như các đối tượng 3 và 4 là. Nhưng 1 và 2 có nhiều thuộc tính trong danh sách trong khi 3 và 4 chỉ có vài thuộc tính. Trong trường hợp này, Russell-Rao (tỷ lệ đồng thuộc tính trên tổng số thuộc tính đang xem xét) sẽ cao cho cặp 1-2 và thấp cho cặp 3-4. Nhưng Jaccard (tỷ lệ đồng thuộc tính với số lượng thuộc tính kết hợp cả hai đối tượng = xác suất rằng nếu một trong hai đối tượng có thuộc tính thì cả hai đều có nó) sẽ cao cho cả hai cặp 1-2 và 3-4.

(mộtmột+b+mộtmột+c)/2

mộtmột+bmộtmột+c
bc

PS

Có phải chỉ vì một số bộ dữ liệu, sự vắng mặt đồng thời của cả hai thuộc tính (d) không truyền tải bất kỳ thông tin nào?

d

Cũng lưu ý rằng nếu bạn muốn tính toán độ tương tự giữa các đối tượng dựa trên 1+ thuộc tính danh nghĩa (nhị phân hoặc đa hình), hãy mã hóa lại từng biến đó thành tập hợp các biến nhị phân giả. Sau đó, các biện pháp tương tự đề nghị để tính toán sẽ Dice ( , khi tính toán cho 1+ bộ biến giả, tương đương với Ochiai và Kulczynski-2).


2
Các thuật ngữ khác nhau đã được đề xuất bởi sự tương tự được cho là "phân đôi" cho các phân loại có nhiều hơn hai loại. "Polytomous" tốt hơn về mặt ngôn ngữ là "polychotomous", dựa trên một dự đoán không chính xác rằng "lưỡng phân" phân tách thành hai gốc Hy Lạp, "di" và "chotomous". Các hợp chất "đa sắc" có lỗi khi sử dụng gốc Latin. Mặc dù các từ có nguồn gốc Latin và Hy Lạp riêng biệt đã sống sót sau sự khinh miệt của các nhà ngôn ngữ học (ví dụ "truyền hình"), tôi khuyên bạn nên sử dụng "polytomous" ở đây.
Nick Cox

Cảm ơn bạn đã nhắc nhở nó. Tôi thực sự biết những gì bạn đang nói về, và cố gắng trở nên thuần khiết ... khi tôi không vội. Tôi sẽ chỉnh sửa nó.
ttnphns

3

Sự hữu ích của hệ số Tanimoto so với độ chính xác truyền thống (ví dụ Russell-Rao) thể hiện rõ trong phân tích hình ảnh, khi so sánh phân đoạn với tiêu chuẩn vàng. Hãy xem xét hai hình ảnh này:

nhập mô tả hình ảnh ở đây

Trong mỗi hình ảnh là 'mặt nạ' nhị phân, chúng tôi có hai đối tượng có cùng kích thước nhưng được đặt ở các vị trí hơi khác nhau và chúng tôi muốn đánh giá mức độ các đối tượng này giống hệt nhau về hình dạng và vị trí bằng cách đánh giá sự chồng chéo của chúng. Thông thường, một (ví dụ mặt nạ màu tím) là một phân đoạn (được tạo ra bởi thuật toán máy tính), ví dụ: đây có thể là một nỗ lực để xác định vị trí của tim từ hình ảnh y tế. Cái khác, (ví dụ màu xanh lá cây) là tiêu chuẩn vàng (tức là trái tim, như được xác định bởi một bác sĩ lâm sàng chuyên gia). Nơi nào có màu trắng, hai hình trùng nhau. Pixel đen là nền.

Hai hình ảnh giống hệt nhau (nghĩa là kết quả của thuật toán phân đoạn, cũng như tiêu chuẩn vàng, giống nhau trong cả hai hình ảnh), ngoại trừ rất nhiều "phần đệm" trong hình ảnh thứ hai (ví dụ: điều này có thể đại diện cho hai thử nghiệm với hai máy X-quang khác nhau, trong đó máy thứ 2 có tia rộng hơn bao phủ nhiều diện tích cơ thể hơn, nhưng nếu không thì kích thước của tim là như nhau trong cả hai bộ ảnh).

Rõ ràng, vì phân đoạn và tiêu chuẩn vàng trong cả hai hình ảnh là giống hệt nhau, nếu chúng tôi đánh giá độ chính xác của phân đoạn so với tiêu chuẩn vàng, chúng tôi muốn số liệu của mình đưa ra kết quả 'chính xác' trong cả hai thử nghiệm.

Tuy nhiên, nếu chúng tôi cố gắng đánh giá chất lượng của phân đoạn bằng cách sử dụng phương pháp Russel-Rao, chúng tôi sẽ có độ chính xác cao gây hiểu lầm cho hình ảnh bên phải (gần 100%), vì "pixel nền được xác định chính xác là pixel nền" đóng góp vào độ chính xác tổng thể của các bộ và các pixel nền được thể hiện không tương xứng trong bộ thứ hai. Các đối tượng mà chúng tôi muốn đánh giá trong phân khúc y tế thường là các đốm nhỏ trong một nền lớn, vì vậy điều này không hữu ích cho chúng tôi. Hơn nữa, điều này sẽ dẫn đến các vấn đề nếu chúng ta cố gắng so sánh độ chính xác của thuật toán phân đoạn này với thuật toán phân đoạn khác và hai thuật toán được đánh giá trên các hình ảnh có kích thước khác nhau! (hoặc, tương đương, ở quy mô khác nhau).Tỷ lệ / kích thước của hình ảnh nhúng sẽ không tạo ra sự khác biệt trong việc đánh giá phân khúc theo tiêu chuẩn vàng! .

Ngược lại, hệ số tanimoto không quan tâm đến các pixel nền, khiến nó bất biến thành 'tỷ lệ'. Vì vậy, theo như hệ số tanimoto, sự giống nhau của cả hai bộ này sẽ giống nhau, làm cho nó trở thành một thước đo tương tự hữu ích hơn nhiều để chúng ta sử dụng để đánh giá chất lượng của thuật toán phân đoạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.