Có, bạn có thể tận dụng các mô hình được đào tạo trước. Mô hình nổi tiếng nhất là mô hình được đào tạo GoogleNewsData mà bạn có thể tìm thấy ở đây.
Các vectơ từ và cụm từ được đào tạo trước https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit?usp=shaming
Sau đó, bạn có thể tải các vectơ ở định dạng nhị phân trong mô hình của mình bằng gensim như dưới đây.
>>> model = Word2Vec.load_word2vec_format('/tmp/vectors.txt', binary=False) # C text format
>>> model = Word2Vec.load_word2vec_format('/tmp/vectors.bin', binary=True) # C binary format
Đây là một mô hình được xây dựng sẵn khác cho Wikipedia tiếng Anh:
https://github.com/idio/wiki2vec/raw/master/torrents/enwiki-gensim-word2vec-1000-nostem-10cbow.torrent
Nguồn: https://github.com/idio/wiki2vec/
Sử dụng mô hình dựng sẵn
Get python 2.7
Install gensim: pip install gensim
uncompress downloaded model: tar -xvf model.tar.gz
Load model in gensim:
from gensim.models import Word2Vec
model = Word2Vec.load("path/to/word2vec/en.model")
model.similarity('woman', 'man')
Bạn cũng có thể sử dụng Găng tay NLP Stanford
Dưới đây là một bản tổng hợp tuyệt vời của các mô hình word2vec được đào tạo trước.
Một số mô hình được đào tạo bổ sung:
Thông tin thêm về gensim và mã tại đây: https://radimrehurek.com/gensim/models/word2vec.html
Diễn đàn Quora với một câu hỏi tương tự