Tìm các vectơ tương tự trong thời gian phụ


9

Đặt là một hàm mà chúng ta gọi là hàm tương tự . Ví dụ về chức năng tương tự là khoảng cách cosine, l 2 định mức, khoảng cách Hamming, độ tương tự Jaccard, v.v.d:{0,1}k×{0,1}kRl2

Xem xét vectơ nhị phân có độ dài k : v( { 0 , 1 } k ) n .nkv({0,1}k)n

Mục tiêu của chúng tôi là nhóm các vectơ tương tự nhau. Chính thức hơn, chúng tôi muốn tính toán một biểu đồ tương đồng nơi các nút là các vectơ và các cạnh đại diện cho vectơ mà là tương tự ( ).d(v,u)ϵ

k là những số rất lớn và việc so sánh haivectơ k có giá trị rất đắt, chúng ta không thể thực hiện tất cả các phép toán O ( n 2 ) brute-force. Chúng tôi muốn tính toán biểu đồ tương tự với các hoạt động ít hơn đáng kể.nkkO(n2)

Điều này có thể không? Nếu không, chúng ta có thể tính xấp xỉ cho biểu đồ chứa tất cả các cạnh trong biểu đồ tương tự cộng với có thể nhiều nhất là các cạnh khác không?O(1)


Nó phải chứ không phải ε ? ϵϵ
usul

@usul Cảm ơn bình luận của bạn :) Ở đây, chúng tôi quan tâm đến các mục nhóm rất giống nhau. Tôi đã chỉnh sửa câu hỏi, tôi hy vọng nó đã rõ ràng.
Ram

Âm thanh với tôi như bạn có thể sử dụng Băm tương tự bảo tồn ( arxiv.org/pdf/1311.7662v1.pdf ) để giảm kích thước sự cố.
RB

4
d(n2)

5
Bạn có làm việc cho twitter không? blog.twitter.com/2014/all-pairs-similarity-via-dimsum Nghiêm túc, thậm chí phát hiện nếu có một cạnh trong biểu đồ này (nghĩa là nó không phải là một tập hợp các đỉnh độc lập) sẽ rất khó để làm nhanh hơn cho hàm tương tự tùy ý. O(n2)
Ryan Williams

Câu trả lời:


5

Có thể có một cách để cắm sừng định lý Johnson-Lindenstrauss vào vấn đề này. Về cơ bản, JL tuyên bố rằng bạn có thể chiếu dữ liệu chiều cao vào không gian chiều thấp hơn theo cách mà khoảng cách cặp gần như được bảo toàn. Thực tế hơn, Achlioptas có một bài báo gọi là các phép chiếu ngẫu nhiên thân thiện với cơ sở dữ liệu: Johnson-Lindenstrauss với các đồng tiền nhị phân thực hiện phép chiếu này một cách ngẫu nhiên, hoạt động khá tốt trong thực tế.

Bây giờ, chắc chắn, hàm tương tự của bạn không hoàn toàn giống với cái gì đó sẽ phù hợp với định lý JL. Tuy nhiên, nó trông giống như một hàm khoảng cách và có lẽ một số lý thuyết ở trên có thể giúp ích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.