Lấy cảm hứng từ câu hỏi này , tôi tự hỏi liệu có bất kỳ công việc nào đã được thực hiện trên các mô hình chủ đề cho các bộ sưu tập lớn các văn bản cực ngắn. Trực giác của tôi là Twitter nên là nguồn cảm hứng tự nhiên cho những mô hình như vậy. Tuy nhiên, từ một số thử nghiệm hạn chế, có vẻ như các mô hình chủ đề tiêu chuẩn (LDA, v.v.) hoạt động khá kém trên loại dữ liệu này.
Có ai ngoài đó biết bất kỳ công việc đã được thực hiện trong lĩnh vực này? Bài viết này nói về việc áp dụng LDA cho Twitter, nhưng tôi thực sự quan tâm đến việc liệu có các thuật toán khác hoạt động tốt hơn trong bối cảnh tài liệu ngắn hay không.