Phương pháp .similarity trong SpaCy được tính như thế nào?


13

Không chắc chắn nếu đây là trang web ngăn xếp đúng, nhưng ở đây đi.

Phương thức .simustomity hoạt động như thế nào?

Wow spaCy thật tuyệt! Mô hình tfidf của nó có thể dễ dàng hơn, nhưng w2v chỉ với một dòng mã?!

Trong bài hướng dẫn 10 dòng của mình về spaCy andrazhackernik cho chúng tôi thấy phương pháp .similarity có thể chạy trên mã thông báo, sents, chunk từ và tài liệu.

Sau nlp = spacy.load('en')doc = nlp(raw_text) chúng ta có thể thực hiện các truy vấn .similarity giữa các mã thông báo và khối. Tuy nhiên, những gì đang được tính toán đằng sau hậu trường trong .similarityphương pháp này ?

SpaCy đã có một công cụ cực kỳ đơn giản .vector, tính toán vectơ w2v như được đào tạo từ mô hình GloVe (một phương pháp .tfidfhoặc .fasttextphương pháp sẽ tuyệt vời như thế nào ?).

Là mô hình đơn giản tính toán sự tương tự cosine giữa hai w2v, .vector, vectơ hoặc so sánh một số ma trận khác? Các chi tiết cụ thể không rõ ràng trong tài liệu ; Bất kỳ trợ giúp đánh giá cao!


1
"phương thức .tfidf hoặc .fasttext sẽ tuyệt đến mức nào?" các tài liệu cung cấp một ví dụ về việc thay thế các vectơ GloVe bằng FastText. Nó có thể không chính xác giống như có chúng với nhau. Github
Carl G

Câu trả lời:


12

Tìm thấy câu trả lời, tóm lại, nó có:

Liên kết đến mã Souce

return numpy.dot(self.vector, other.vector) / (self.vector_norm * other.vector_norm)

Đây có vẻ như là công thức tính toán độ tương tự cosine và các vectơ dường như được tạo ra với SpaCy .vectormà tài liệu nói được đào tạo từ mô hình w2v của GloVe.


6

Theo mặc định, đó là sự tương tự cosine, với các vectơ trung bình trên tài liệu cho các từ bị thiếu.

Bạn cũng có thể tùy chỉnh điều này, bằng cách đặt một hook doc.user_hooks['similarity']. Thành phần đường ống này bao bọc các chức năng tương tự, giúp dễ dàng tùy chỉnh độ tương tự:

https://github.com/explumping/spaCy/blob/develop/spacy/pipeline.pyx#L50


Về mặt kỹ thuật, bạn dường như đã liên kết với SentenceSegmenterchiến lược.
Carl G
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.