Độ tương tự của Jaccard được cho bởi
Stôi j= pp + q+ r
Ở đâu,
p = # thuộc tính dương cho cả hai đối tượng
q = # thuộc tính 1 cho i và 0 cho j
r = # thuộc tính 0 cho i và 1 cho j
Một ⋅ B∥ Một ∥ ∥ B ∥
Nói một cách đơn giản, trong độ tương tự cosine, số lượng thuộc tính phổ biến được chia cho tổng số thuộc tính có thể. Trong khi ở Jaccard Tương tự, số lượng thuộc tính phổ biến được chia cho số lượng thuộc tính tồn tại trong ít nhất một trong hai đối tượng.
Và có nhiều biện pháp tương tự khác, mỗi biện pháp có độ lệch tâm riêng. Khi quyết định sử dụng cái nào, hãy thử nghĩ về một vài trường hợp đại diện và tìm ra chỉ số nào sẽ cho kết quả khả dụng nhất để đạt được mục tiêu của bạn.
Chỉ số Cosine có thể được sử dụng để xác định đạo văn, nhưng sẽ không phải là một chỉ số tốt để xác định các trang web phản chiếu trên internet. Trong khi chỉ số Jaccard, sẽ là một chỉ mục tốt để xác định các trang web phản chiếu, nhưng không tuyệt vời trong việc bắt bản sao đạo văn (trong một tài liệu lớn hơn).
Khi áp dụng các chỉ số này, bạn phải suy nghĩ kỹ về vấn đề của mình và tìm ra cách xác định độ tương tự. Khi bạn có một định nghĩa trong đầu, bạn có thể đi mua sắm cho một chỉ mục.
Chỉnh sửa:
Trước đó, tôi đã có một ví dụ bao gồm trong câu trả lời này, cuối cùng không chính xác. Nhờ một số người dùng đã chỉ ra rằng, tôi đã loại bỏ ví dụ sai lầm.