Từ quan điểm thực tế ...
LDA bắt đầu bằng một đầu vào từ trong đó xem xét những từ nào cùng xuất hiện trong tài liệu, nhưng không chú ý đến ngữ cảnh ngay lập tức của từ. Điều này có nghĩa là các từ có thể xuất hiện ở bất cứ đâu trong tài liệu và theo bất kỳ thứ tự nào, loại bỏ một mức thông tin nhất định. Ngược lại, word2vec là tất cả về bối cảnh mà một từ được sử dụng - mặc dù có lẽ không theo thứ tự chính xác.
"Chủ đề" của LDA là một cấu trúc toán học và bạn không nên nhầm lẫn chúng với các chủ đề thực tế của con người. Bạn có thể kết thúc với các chủ đề không có sự giải thích của con người - chúng giống như các tạo tác của quá trình hơn là các chủ đề thực tế - và bạn có thể kết thúc với các chủ đề ở các mức độ trừu tượng khác nhau, bao gồm các chủ đề bao gồm cùng một chủ đề về con người. Nó hơi giống như đọc lá trà.
Tôi đã thấy LDA hữu ích để khám phá dữ liệu, nhưng không hữu ích cho việc cung cấp giải pháp, nhưng số dặm của bạn có thể thay đổi.
Word2vec hoàn toàn không tạo chủ đề. Nó chiếu các từ vào một không gian nhiều chiều dựa trên cách sử dụng tương tự, do đó, nó có thể có những bất ngờ riêng về các từ mà bạn nghĩ là khác biệt - hoặc thậm chí ngược lại - có thể ở gần nhau trong không gian.
Bạn có thể sử dụng một trong hai để xác định xem các từ có "tương tự" hay không. Với LDA: các từ có trọng số tương tự trong cùng một chủ đề. Với word2vec: chúng có đóng (bằng một số biện pháp) trong không gian nhúng.
Bạn có thể sử dụng hoặc để xác định xem các tài liệu có giống nhau không. Với LDA, bạn sẽ tìm kiếm một hỗn hợp các chủ đề tương tự, và với word2vec, bạn sẽ làm một cái gì đó như thêm các vectơ của các từ của tài liệu. ("Tài liệu" có thể là một câu, đoạn, trang hoặc toàn bộ tài liệu.) Doc2vec là phiên bản sửa đổi của word2vec cho phép so sánh trực tiếp các tài liệu.
Mặc dù LDA loại bỏ một số thông tin theo ngữ cảnh với cách tiếp cận từ ngữ, nhưng nó có các chủ đề (hoặc "chủ đề"), mà word2vec không có. Vì vậy, thật đơn giản khi sử dụng doc2vec để nói: "Hiển thị cho tôi các tài liệu tương tự như tài liệu này", trong khi với LDA, thật đơn giản để nói, "Hiển thị cho tôi các tài liệu trong đó chủ đề A nổi bật." (Một lần nữa, biết rằng "chủ đề A" xuất hiện từ một quá trình toán học trên các tài liệu của bạn và sau đó bạn tìm ra chủ đề con người mà nó chủ yếu tương ứng với.)