Vì bạn đang sử dụng gensim, có lẽ bạn nên sử dụng triển khai doc2vec. doc2vec là phần mở rộng của word2vec cho cụm từ-, câu- và cấp độ tài liệu. Đây là một phần mở rộng khá đơn giản, được mô tả ở đây
http://cs.stanford.edu/~quocle/par Đoạn_vector.pdf
Gensim rất hay vì nó trực quan, nhanh và linh hoạt. Điều tuyệt vời là bạn có thể lấy các từ nhúng đã được lọc trước từ trang word2vec chính thức và lớp syn0 của mô hình Doc2Vec của gensim được hiển thị để bạn có thể ghép các từ nhúng với các vectơ chất lượng cao này!
GoogleNews-vectors-neg300.bin.gz (như được liên kết trong Google Code )
Tôi nghĩ rằng gensim chắc chắn là công cụ dễ nhất (và cho đến nay đối với tôi, tốt nhất) để nhúng một câu trong không gian vectơ.
Có tồn tại các kỹ thuật câu-vectơ khác so với kỹ thuật được đề xuất trong bài báo của Le & Mikolov ở trên. Socher và Manning từ Stanford chắc chắn là hai trong số những nhà nghiên cứu nổi tiếng nhất làm việc trong lĩnh vực này. Công việc của họ được dựa trên nguyên tắc cấu tạo - ngữ nghĩa của câu đến từ:
1. semantics of the words
2. rules for how these words interact and combine into phrases
Họ đã đề xuất một vài mô hình như vậy (ngày càng phức tạp hơn) về cách sử dụng thành phần để xây dựng các biểu diễn mức câu.
2011 - mở ra bộ mã hóa tự động đệ quy (rất đơn giản. Bắt đầu từ đây nếu quan tâm)
2012 - mạng nơ ron ma trận-vector
2013 - mạng kéo căng thần kinh
2015 - Cây LSTM
giấy tờ của anh ấy đều có sẵn tại socher.org. Một số mô hình này có sẵn, nhưng tôi vẫn khuyên dùng doc2vec của gensim. Đối với một, URAE 2011 không đặc biệt mạnh mẽ. Ngoài ra, nó đi kèm với trọng lượng phù hợp cho dữ liệu tin tức-y diễn giải. Mã anh ấy cung cấp không cho phép bạn đào tạo lại mạng. Bạn cũng không thể trao đổi trong các vectơ từ khác nhau, vì vậy bạn bị mắc kẹt với các phần nhúng pre-word2vec của năm 2011 từ Turian. Các vectơ này chắc chắn không ở cấp độ của word2vec hoặc GloVe.
Chưa làm việc với Tree LSTM, nhưng có vẻ rất hứa hẹn!
tl; dr Vâng, sử dụng doc2vec của gensim. Nhưng các phương pháp khác không tồn tại!