Điều này giống như một câu hỏi NLP chung. Đầu vào thích hợp để đào tạo một từ nhúng cụ thể là Word2Vec là gì? Tất cả các câu thuộc về một bài viết có phải là một tài liệu riêng biệt trong một văn bản không? Hoặc mỗi bài viết nên là một tài liệu trong văn bản nói? Đây chỉ là một ví dụ sử dụng python và gensim.
Corpus chia theo câu:
SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
["second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article."],
["second", "sentence", "of", "the", "second", "article."]]
Corpus chia theo bài viết:
ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
"second", "sentence", "of", "the", "first", "article."],
["first", "sentence", "of", "the", "second", "article.",
"second", "sentence", "of", "the", "second", "article."]]
Đào tạo Word2Vec bằng Python:
from gensim.models import Word2Vec
wikiWord2Vec = Word2Vec(ArticleCorpus)