Đặt độ tương tự - Tính toán chỉ số Jaccard không có độ phức tạp bậc hai


14

Tôi có một nhóm gồm n bộ mà tôi cần tính toán một loại giá trị "duy nhất" hoặc "tương tự". Tôi đã giải quyết chỉ số Jaccard là một số liệu phù hợp. Thật không may, chỉ số Jaccard chỉ hoạt động trên hai bộ cùng một lúc. Để tính toán độ tương tự giữa tất cả bộ, nó sẽ yêu cầu theo thứ tự n 2 phép tính Jaccard.nn2

(Nếu có ích, thường nằm trong khoảng từ 10 đến 10000 và mỗi bộ chứa trung bình 500 phần tử. Ngoài ra, cuối cùng, tôi không quan tâm đến hai bộ cụ thể giống nhau như thế nào - thay vào đó, tôi chỉ quan tâm đến sự tương đồng bên trong của toàn bộ nhóm là (Nói cách khác, giá trị trung bình (hoặc ít nhất là xấp xỉ đủ chính xác của giá trị trung bình) của tất cả các chỉ mục Jaccard trong nhóm))n

Hai câu hỏi:

  1. Có cách nào để vẫn sử dụng chỉ số Jaccard mà không cần độ phức tạp không?n2
  2. Có cách nào tốt hơn để tính toán độ tương tự / tính duy nhất của tập hợp trong một nhóm các bộ so với cách tôi đã đề xuất ở trên không?

Trước tiên bạn có thể làm rõ những gì bạn có nghĩa là "tương tự nội bộ"?
Suresh

Nói cách khác, giá trị trung bình (hoặc ít nhất là xấp xỉ đủ chính xác của giá trị trung bình) của tất cả các chỉ số Jaccard trong nhóm.

5
Nếu bạn sẵn sàng ước chừng câu trả lời, thì bạn có thể sử dụng băm tối thiểu để ước tính khoảng cách Jaccard xấp xỉ và sau đó sử dụng biểu diễn kết quả để tính trung bình mong muốn.
Suresh

6
Tôi không biết ý của bạn là gì bởi chính xác, bởi vì một cách để ước tính trung bình của nhiều thứ chỉ là tính toán một vài trong số chúng (chỉ số Jaccard của một số cặp trong trường hợp này) một cách ngẫu nhiên và tính trung bình của chúng. Sau đó, bạn có thể sử dụng ràng buộc Chernoff để có giới hạn trên về xác suất ước tính này khác xa với giá trị trung bình thực.
Tsuyoshi Ito

Câu trả lời:


4

Một tùy chọn sẽ là sử dụng Lược đồ chữ ký của [1], lọc dựa trên kích thước : một lược đồ sử dụng thông tin kích thước để giảm số lượng cặp được đặt cần xem xét.

Họ cũng thử nghiệm với một hình thức có trọng số; trọng lượng dựa trên IDF.

[1] Arasu, Arvind, Venkatesh Ganti và Raghav Kaushik. Sự tham gia của bộ tương tự chính xác hiệu quả của Jus. Trong các thủ tục của Hội nghị quốc tế lần thứ 32 về các cơ sở dữ liệu rất lớn, 918 Lỗi929. VLDB '06. Tài trợ của VLDB, 2006


Liên kết đó dường như đã chết. Xem xét cập nhật nó lên vldb.org/conf/2006/p918-arasu.pdf .
j_random_hacker

0

Một lựa chọn khác là sử dụng liên kết wiki băm nhạy cảm cục bộ . Tôi đã thấy nó được sử dụng trong phát hiện sự tương đồng trong cộng đồng bởi Wu và Zou ( Một phương pháp phát hiện cộng đồng gia tăng cho các hệ thống gắn thẻ xã hội bằng cách sử dụng băm nhạy cảm cục bộ , Mạng nơ-ron 58: 14 Chuyện28; ACM DL ) về cơ bản là phát hiện sự tương đồng giữa các số nguyên hoặc bộ chuỗi.


1
Vui lòng tóm tắt nội dung của các liên kết và trích dẫn bài báo. Nếu các liên kết trở nên cũ kỹ, câu trả lời hiện tại trở nên vô dụng.
vonbrand
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.