Tôi có một nhóm gồm n bộ mà tôi cần tính toán một loại giá trị "duy nhất" hoặc "tương tự". Tôi đã giải quyết chỉ số Jaccard là một số liệu phù hợp. Thật không may, chỉ số Jaccard chỉ hoạt động trên hai bộ cùng một lúc. Để tính toán độ tương tự giữa tất cả bộ, nó sẽ yêu cầu theo thứ tự n 2 phép tính Jaccard.
(Nếu có ích, thường nằm trong khoảng từ 10 đến 10000 và mỗi bộ chứa trung bình 500 phần tử. Ngoài ra, cuối cùng, tôi không quan tâm đến hai bộ cụ thể giống nhau như thế nào - thay vào đó, tôi chỉ quan tâm đến sự tương đồng bên trong của toàn bộ nhóm là (Nói cách khác, giá trị trung bình (hoặc ít nhất là xấp xỉ đủ chính xác của giá trị trung bình) của tất cả các chỉ mục Jaccard trong nhóm))
Hai câu hỏi:
- Có cách nào để vẫn sử dụng chỉ số Jaccard mà không cần độ phức tạp không?
- Có cách nào tốt hơn để tính toán độ tương tự / tính duy nhất của tập hợp trong một nhóm các bộ so với cách tôi đã đề xuất ở trên không?