Có một vấn đề chúng tôi đang cố gắng giải quyết nơi chúng tôi muốn thực hiện tìm kiếm ngữ nghĩa trên bộ dữ liệu của mình, tức là chúng tôi có dữ liệu cụ thể theo miền (ví dụ: câu nói về ô tô)
Dữ liệu của chúng tôi chỉ là một loạt các câu và điều chúng tôi muốn là đưa ra một cụm từ và lấy lại các câu đó là:
- Tương tự với cụm từ đó
- Có một phần của câu tương tự như cụm từ
- Một câu có ý nghĩa tương tự theo ngữ cảnh
Hãy để tôi thử cho bạn một ví dụ giả sử tôi tìm kiếm cụm từ "Mua kinh nghiệm", tôi sẽ nhận được các câu như:
- Tôi không bao giờ nghĩ rằng mua xe có thể mất ít hơn 30 phút để ký và mua.
Tôi tìm thấy một chiếc xe mà tôi thích và quá trình mua rất
đơn giản và dễ dàngTôi hoàn toàn ghét đi mua sắm xe hơi, nhưng hôm nay tôi rất vui vì đã làm
Tôi muốn nhấn mạnh vào thực tế rằng chúng ta đang tìm kiếm sự tương đồng theo ngữ cảnh và không chỉ là một tìm kiếm từ ngữ vũ phu.
Nếu câu sử dụng các từ khác nhau thì nó cũng có thể tìm thấy nó.
Những điều mà chúng tôi đã thử:
Tìm kiếm ngữ nghĩa mở , vấn đề chúng ta gặp phải ở đây là tạo ra bản thể học từ dữ liệu chúng ta có hoặc vì mục đích tìm kiếm bản thể học có sẵn từ các lĩnh vực khác nhau mà chúng ta quan tâm.
Tìm kiếm đàn hồi (BM25 + vectơ (tf-idf)), chúng tôi đã thử điều này khi nó đưa ra một vài câu nhưng độ chính xác không phải là tuyệt vời. Độ chính xác là xấu. Chúng tôi đã cố gắng chống lại một bộ dữ liệu do con người quản lý, nó chỉ có thể nhận được khoảng 10% số câu.
Chúng tôi đã thử các cách nhúng khác nhau như đã từng được đề cập trong các máy biến áp câu và cũng đã xem qua ví dụ và thử đánh giá theo tập hợp con người của chúng tôi và điều đó cũng có độ chính xác rất thấp.
Chúng tôi đã thử ELMO . Điều này tốt hơn nhưng vẫn có độ chính xác thấp hơn chúng tôi dự kiến và có một tải nhận thức để quyết định giá trị cosin dưới đây mà chúng ta không nên xem xét các câu. Điều này thậm chí áp dụng cho điểm 3.
Bất kỳ trợ giúp sẽ được đánh giá cao. Cảm ơn rất nhiều vì sự giúp đỡ trước