Một số cách tiêu chuẩn để tính toán khoảng cách giữa các truy vấn tìm kiếm cá nhân là gì?


8

Tôi đã đặt một câu hỏi tương tự hỏi về khoảng cách giữa các "tài liệu" (bài viết trên Wikipedia, tin tức, v.v.). Tôi đặt câu hỏi này thành một câu hỏi riêng vì các truy vấn tìm kiếm nhỏ hơn đáng kể so với tài liệu và đáng chú ý hơn. Do đó tôi không biết (và nghi ngờ) nếu các số liệu khoảng cách tương tự sẽ được sử dụng ở đây.

Hoặc số liệu khoảng cách từ vựng vanilla hoặc số liệu khoảng cách ngữ nghĩa hiện đại được ưa thích, với ưu tiên mạnh mẽ hơn cho sau này.


2
Các truy vấn tìm kiếm không ồn ào hơn (có rất ít từ trong truy vấn không thực sự liên quan đến tìm kiếm), nhưng có thể chứa lỗi chính tả, mơ hồ, tiếng lóng và các nội dung khác mà bạn phải xử lý riêng. Ngoài các vấn đề này, các truy vấn và tài liệu có thể được xử lý khá giống nhau.

có lẽ bạn có thể trích xuất các vectơ từ khóa từ các truy vấn, sau đó tính khoảng cách giữa các vectơ đó và cách xác định độ tương tự, tôi nghĩ đây vẫn là một câu hỏi mở :)
crazyminer

1
Cả hai câu hỏi của bạn đều rộng, chủ quan và sẽ cần bảo trì đáng kể để tránh trở nên lỗi thời. Vì cộng đồng đánh giá cao loại câu hỏi đó, việc giữ một trong số chúng có thể hợp lý - nhưng chắc chắn không phải cả hai, khi cuộc thảo luận này là một tập hợp con của câu hỏi kia. Vui lòng xem lại Những loại câu hỏi tôi nên tránh hỏi?
Không khí

Cảm ơn, AirThomas! Bài đăng của ffriend dường như chỉ ra rằng đây rõ ràng là một bản sao. Tôi sẽ xem những gì tôi có thể làm về điều này.
Matt

Câu trả lời:


4

Theo kinh nghiệm của tôi, chỉ có một số loại truy vấn có thể được phân loại theo các tính năng từ vựng (do sự mơ hồ của ngôn ngữ tự nhiên). Thay vào đó, bạn có thể thử sử dụng kết quả tìm kiếm boolean (trang web hoặc phân đoạn trang web, không phải tài liệu, không xếp hạng) làm tính năng để phân loại (thay vì từ). Cách tiếp cận này hoạt động tốt trong các lớp có sự mơ hồ từ vựng lớn trong truy vấn nhưng tồn tại rất nhiều trang web tốt có liên quan đến truy vấn (ví dụ: phim, nhạc, truy vấn thương mại, v.v.).

Ngoài ra, để phân loại ngoại tuyến, bạn có thể thực hiện LSI trên ma trận trang truy vấn. Xem sách "Giới thiệu về truy xuất thông tin" để biết chi tiết.


Trên một lưu ý liên quan, tôi tìm thấy bài báo liên quan này .
Matt

4

Số liệu tương tự cosine thực hiện công việc kiểm soát độ dài tài liệu tốt (nếu không hoàn hảo), do đó, việc so sánh độ tương tự của 2 tài liệu hoặc 2 truy vấn bằng cách sử dụng số liệu cosine và trọng số tf idf cho các từ sẽ hoạt động tốt trong cả hai trường hợp. Tôi cũng khuyên bạn nên thực hiện LSA trước tiên về trọng lượng tf idf, và sau đó tính toán khoảng cách cosine \ điểm tương đồng.

Nếu bạn đang cố gắng xây dựng một công cụ tìm kiếm, tôi khuyên bạn nên sử dụng một công cụ tìm kiếm nguồn mở miễn phí như tìm kiếm solr hoặc co giãn, hoặc chỉ các thư viện lucene thô, vì chúng làm hầu hết công việc cho bạn và có các phương pháp được xây dựng tốt cho xử lý các truy vấn để tài liệu tương tự vấn đề.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.