Điều đó chủ yếu phụ thuộc vào mức độ "hiện đại" (SOTA) mà bạn muốn so với mức độ bạn muốn đi sâu (ý định chơi chữ ...).
Nếu bạn có thể sống chỉ với các từ nhúng nông như được cung cấp bởi word2vec, Găng tay hoặc fastText, tôi nghĩ rằng Word Mover Khoảng cách (WMD [có, thực sự ...]) là một chức năng tốt để đo khoảng cách tài liệu (ngắn) [1] . Tôi thậm chí đã từng thấy một số Sổ tay Python trong quá khứ cung cấp "hướng dẫn" cho thước đo khoảng cách này, vì vậy nó thực sự dễ dàng để đi.
Tuy nhiên, nếu bạn quan tâm nhiều hơn đến SOTA, bạn sẽ phải xem xét việc học sâu (biểu diễn chuỗi), sử dụng một số loại mạng lặp lại học mô hình chủ đề từ các câu của bạn. Ngoài việc tích hợp các từ nhúng (ngữ nghĩa) của các từ, các cách tiếp cận này còn vượt xa cách tiếp cận "tốt, cũ" bằng cách học cách trình bày chủ đề bằng cách sử dụng các phụ thuộccủa các từ trong câu [s]. Ví dụ, Mô hình chủ đề lặp lại mức câu (SLRTM) là một mô hình tái diễn sâu, khá thú vị dựa trên ý tưởng của LDA truyền thống hơn (bởi Blei et al.) Hoặc LSA (Landauer et al.), Nhưng đó chỉ là một arXiv giấy (vì vậy tất cả các "cảnh báo mang theo hạt muối" mặc định về nghiên cứu không được đánh giá ngang hàng nên được áp dụng ...) [2]. Dù sao đi nữa, bài báo có nhiều con trỏ và tài liệu tham khảo tuyệt vời để bắt đầu nghiên cứu của bạn nếu bạn muốn đi xuống lỗ thỏ này.
Cuối cùng, cần phải làm rõ rằng tôi không cho rằng đây là những phương pháp thực hiện tốt nhất theo thỏa thuận cho các mô hình từ và mô hình chuỗi tương ứng. Nhưng họ sẽ giúp bạn khá gần với bất cứ SOTA "tốt nhất" nào, và ít nhất nên đóng vai trò là điểm khởi đầu tuyệt vời.
[1] Matt J. Kusner và cộng sự. Từ nhúng nhúng đến khoảng cách tài liệu. Kỷ yếu hội thảo quốc tế lần thứ 32 về học máy, JMLR, 2015.
[2] Fei Tian et al. SLRTM: Để các chủ đề nói cho chính mình. arXiv 1604.02038, 2016.