Word2Vec và Doc2Vec có phải là đại diện phân phối hay đại diện phân phối không?


10

Tôi đã đọc rằng đại diện phân phối dựa trên giả thuyết phân phối rằng các từ xuất hiện trong bối cảnh tương tự có xu hướng có ý nghĩa tương tự.

Cả Word2Vec và Doc2Vec đều được mô hình hóa theo giả thuyết này. Nhưng, trong bài báo gốc, thậm chí chúng có tiêu đề là Distributed representation of words and phrasesDistributed representation of sentences and documents. Vì vậy, là các thuật toán dựa trên đại diện phân phối hoặc đại diện phân phối.

Làm thế nào về các mô hình khác như LDA và LSA.

Câu trả lời:


5

Thực tế, Word2Vec / Doc2Vec dựa trên distributional hypothesisbối cảnh cho mỗi từ là các từ gần đó. Tương tự, LSA lấy toàn bộ tài liệu làm bối cảnh. Cả hai kỹ thuật đều giải quyết word embeddingvấn đề - nhúng các từ vào không gian vectơ liên tục trong khi vẫn giữ các từ liên quan đến ngữ nghĩa gần nhau.

Mặt khác, LDA không được thực hiện để giải quyết vấn đề tương tự. Họ đối phó với một vấn đề khác được gọi topic modelinglà tìm chủ đề tiềm ẩn trong một bộ tài liệu.


Tôi đã nhận được câu trả lời từ các nhóm google nói rằng, cả phân phối và phân phối của nó theo các quan điểm khác nhau. Phân phối theo giả thuyết được sử dụng và phân phối theo các tính năng phân tán trong không gian vectơ.
yazhi

vkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman
Tu N.

2

Turian, Joseph, Lev Ratinov và Yoshua Bengio. " Đại diện từ: một phương pháp đơn giản và chung cho việc học bán giám sát ." Kỷ yếu của cuộc họp thường niên lần thứ 48 của hiệp hội về ngôn ngữ học tính toán. Hiệp hội Ngôn ngữ học tính toán, năm 2010 xác định các biểu diễn phân phối và biểu diễn phân phối như sau:

  • FW×CWFwwFcFFwWFwFd<<CFwwdgF

  • Một đại diện phân tán là dày đặc, chiều thấp và giá trị thực. Đại diện từ phân tán được gọi là nhúng từ. Mỗi chiều của nhúng thể hiện một tính năng tiềm ẩn của từ này, hy vọng nắm bắt được các thuộc tính cú pháp và ngữ nghĩa hữu ích. Một đại diện phân tán là nhỏ gọn, theo nghĩa là nó có thể đại diện cho số cụm theo cấp số mũ theo số lượng kích thước.

FYI: Sự khác biệt giữa các vectơ từ, biểu diễn từ và nhúng vectơ là gì?


2
Sự nhầm lẫn tương tự vẫn còn trong câu trả lời quá. Nó có tính chất từ ​​cả hai đại diện. Hãy xem những gì nó có điểm chung. Distributional: Nó có một ma trận có kích thước WxC và sau đó được giảm xuống Wxd, trong đó d là kích thước vectơ nhúng. Nó sử dụng kích thước cửa sổ để xác định bối cảnh. Distributed: Vectơ dày đặc, chiều thấp. Nó bảo tồn các tính năng tiềm ẩn (thuộc tính ngữ nghĩa) trong các kích thước đó.
yazhi

2

Câu trả lời từ Andrey Kutuzov thông qua các nhóm google cảm thấy thỏa đáng

Tôi muốn nói rằng các thuật toán word2vec dựa trên cả hai.

Khi mọi người nói distributional representation, họ thường có nghĩa là khía cạnh ngôn ngữ: ý nghĩa là bối cảnh, biết từ của công ty và các trích dẫn nổi tiếng khác.

Nhưng khi mọi người nói distributed representation, nó hầu như không liên quan gì đến ngôn ngữ học. Nó là nhiều hơn về khía cạnh khoa học máy tính. Nếu tôi hiểu Mikolov và các từ khác một cách chính xác, từ distributedtrong bài báo của họ có nghĩa là mỗi thành phần duy nhất của biểu diễn vectơ không có bất kỳ ý nghĩa nào của riêng nó. Các tính năng có thể hiểu được (ví dụ: bối cảnh từ trong trường hợp word2vec) bị ẩn và distributedtrong số các thành phần vectơ không thể giải thích: mỗi thành phần chịu trách nhiệm cho một số tính năng có thể hiểu được và mỗi tính năng có thể hiểu được liên kết với một số thành phần.

Vì vậy, word2vec (và doc2vec) sử dụng các biểu diễn phân tán về mặt kỹ thuật, như một cách để biểu diễn ngữ nghĩa từ vựng. Và đồng thời, nó dựa trên khái niệm dựa trên giả thuyết phân phối: nó chỉ hoạt động vì giả thuyết phân phối là đúng (nghĩa của từ có tương quan với bối cảnh điển hình của chúng).

Nhưng tất nhiên thường là các thuật ngữ distributeddistributionalđược sử dụng thay thế cho nhau, làm tăng sự hiểu lầm :)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.