Câu trả lời:
Các tên khá đơn giản và sẽ cho bạn một ý tưởng rõ ràng về biểu diễn vector.
Thuật toán Word2Vec xây dựng biểu diễn ngữ nghĩa phân tán của các từ. Có hai cách tiếp cận chính để đào tạo, Phân phối túi từ và Mô hình bỏ qua gram. Một liên quan đến việc dự đoán các từ ngữ cảnh bằng cách sử dụng một từ trung tâm, trong khi cái còn lại liên quan đến việc dự đoán từ bằng cách sử dụng các từ ngữ cảnh. Bạn có thể đọc về nó rất chi tiết trong bài viết của Mikolov .
Ý tưởng tương tự có thể được mở rộng thành câu và hoàn thành các tài liệu trong đó thay vì học cách biểu diễn tính năng cho từ, bạn học nó cho câu hoặc tài liệu. Tuy nhiên, để có được ý tưởng chung về SentenceToVec, hãy nghĩ về nó như một trung bình toán học của các biểu diễn vectơ từ của tất cả các từ trong câu. Bạn có thể có được một xấp xỉ rất tốt chỉ bằng cách lấy trung bình và không cần đào tạo bất kỳ SentenceToVec nào, nhưng tất nhiên, nó cũng có những hạn chế.
Doc2Vec mở rộng ý tưởng của SentenceToVec hay đúng hơn là Word2Vec vì các câu cũng có thể được coi là tài liệu. Ý tưởng đào tạo vẫn tương tự. Bạn có thể đọc Doc2Vec Mikolov của giấy để biết thêm chi tiết.
Đến với các ứng dụng, nó sẽ phụ thuộc vào nhiệm vụ. Word2Vec có hiệu quả nắm bắt các mối quan hệ ngữ nghĩa giữa các từ do đó có thể được sử dụng để tính toán độ tương tự từ hoặc được cung cấp như các tính năng cho các nhiệm vụ NLP khác nhau như phân tích tình cảm, v.v. Tuy nhiên, từ ngữ chỉ có thể nắm bắt rất nhiều, đôi khi bạn cần mối quan hệ giữa câu và tài liệu và không chỉ là lời nói Ví dụ: nếu bạn đang cố gắng tìm hiểu, liệu hai câu hỏi tràn ngăn xếp có phải là bản sao của nhau không.
Một tìm kiếm google đơn giản sẽ dẫn bạn đến một số ứng dụng của các thuật toán này.