Đầu vào tốt hơn cho Word2Vec là gì?

22

Điều này giống như một câu hỏi NLP chung. Đầu vào thích hợp để đào tạo một từ nhúng cụ thể là Word2Vec là gì? Tất cả các câu thuộc về một bài viết có phải là một tài liệu riêng biệt trong một văn bản không? Hoặc mỗi bài viết nên là một tài liệu trong văn bản nói? Đây chỉ là một ví dụ sử dụng python và gensim.

Corpus chia theo câu:

SentenceCorpus = [["first", "sentence", "of", "the", "first", "article."],
                  ["second", "sentence", "of", "the", "first", "article."],
                  ["first", "sentence", "of", "the", "second", "article."],
                  ["second", "sentence", "of", "the", "second", "article."]]

Corpus chia theo bài viết:

ArticleCorpus = [["first", "sentence", "of", "the", "first", "article.",
                  "second", "sentence", "of", "the", "first", "article."],
                 ["first", "sentence", "of", "the", "second", "article.",
                  "second", "sentence", "of", "the", "second", "article."]]

Đào tạo Word2Vec bằng Python:

from gensim.models import Word2Vec

wikiWord2Vec = Word2Vec(ArticleCorpus)

nlp word-embeddings

— wacax
nguồn

14

Câu trả lời cho câu hỏi này là nó phụ thuộc . Cách tiếp cận chính là chuyển các câu được mã hóa ( SentenceCorpustrong ví dụ của bạn), nhưng tùy thuộc vào mục tiêu của bạn là gì và nội dung bạn đang xem, thay vào đó bạn có thể muốn sử dụng toàn bộ bài viết để tìm hiểu các bài nhúng. Đây là điều mà bạn có thể không biết trước - vì vậy bạn sẽ phải suy nghĩ về cách bạn muốn đánh giá chất lượng của các nhúng và thực hiện một số thử nghiệm để xem loại 'nhúng' nào hữu ích hơn cho nhiệm vụ của bạn ( S).

— NBartley
nguồn

Ngay tại chỗ. Tôi đã sử dụng các nhúng trong một mô hình và, như bạn đã đề cập, có một sự cải thiện lớn về hiệu suất dự đoán của mô hình khi tôi sử dụng toàn bộ bài viết. Vì vậy, trong trường hợp nào sẽ đào tạo từng câu là vượt trội.

— wacax

1

Bạn nên xem và xem các từ có vectơ tương tự có liên quan với nhau như thế nào. Đã có một số công việc được thực hiện về kích thước của cửa sổ ngữ cảnh và loại ngữ cảnh cho thấy các cửa sổ nhỏ hơn (và có lẽ kích thước tài liệu nhỏ hơn, như câu), có thể tạo ra các từ tương tự về chức năng (như trạng thái Hoa Kỳ) thay vì tương tự về mặt địa lý ( như các tiểu bang Hoa Kỳ và các từ liên quan đến chính phủ) có nhiều vectơ tương tự. Tôi chủ yếu trích dẫn các nhúng từ dựa trên phụ thuộc của Omer Levy và Yoav Goldberg từ năm 2014. Mặc dù vậy, tôi có thể bị nhầm lẫn và rất muốn được sửa chữa nếu vậy.

— NBartley

1

Là một bổ sung cho câu trả lời của @ NBartley. Để bất cứ ai đi qua câu hỏi này. Tôi đã thử sử dụng bài viết / câu làm đầu vào cho word2vec trên Spark2.2, kết quả như sau.

sử dụng câu làm đầu vào:

sử dụng bài viết làm đầu vào:

— Zachary
nguồn

0

Đối với trước đây, gensim có lớp Word2Vec. Đối với cái sau, Doc2Vec.

http://rare-technology.com/doc2vec-tutorial/

3

doc2vec về cơ bản khác với việc thực hiện word2vec trên một tập hợp các bài viết hơn là các câu. doc2vec sẽ tự học cách trình bày các bài báo, thay vì chỉ các từ.

— jamesmf