Mô hình chủ đề cho các tài liệu ngắn

14

Lấy cảm hứng từ câu hỏi này , tôi tự hỏi liệu có bất kỳ công việc nào đã được thực hiện trên các mô hình chủ đề cho các bộ sưu tập lớn các văn bản cực ngắn. Trực giác của tôi là Twitter nên là nguồn cảm hứng tự nhiên cho những mô hình như vậy. Tuy nhiên, từ một số thử nghiệm hạn chế, có vẻ như các mô hình chủ đề tiêu chuẩn (LDA, v.v.) hoạt động khá kém trên loại dữ liệu này.

Có ai ngoài đó biết bất kỳ công việc đã được thực hiện trong lĩnh vực này? Bài viết này nói về việc áp dụng LDA cho Twitter, nhưng tôi thực sự quan tâm đến việc liệu có các thuật toán khác hoạt động tốt hơn trong bối cảnh tài liệu ngắn hay không.

— Martin O'Leary
nguồn

2

Twitter là một bộ dữ liệu đặc biệt khó khăn cho việc lập mô hình chủ đề không chỉ do kích thước nhỏ của 'tài liệu', mà còn do loại văn bản. Mọi người có xu hướng sử dụng các tốc ký nhắn tin khác nhau khiến cho việc xác định các lần xuất hiện trở nên khó khăn hơn.

— Nick

Xem danh sách các bài báo hay và mã nguồn tương ứng để lập mô hình chủ đề trên Tweets tại: quora.com/ Kẻ

— NQD

7

Đây là một câu trả lời muộn, nhưng nó có thể hữu ích cho những người khác đang tìm kiếm các công cụ và nghiên cứu liên quan cho vấn đề này:

Weiwei Guo từ Columbia đã triển khai mã cho mô hình chủ đề văn bản ngắn. Ông mô tả việc thực hiện trong bài báo "Mô hình hóa các câu trong không gian tiềm ẩn" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) và mã có sẵn tại đây: http: // www .cs.columbia.edu / ~ weiwei / code.html
Mặc dù đây không phải là mô hình chủ đề, nhưng nếu bạn có một nhiệm vụ phân loại liên quan đến các đoạn văn bản ngắn, bạn có thể sử dụng LibShortText. Từ mô tả trang web của họ

"LibShortText là một công cụ nguồn mở để phân loại và phân tích văn bản ngắn. Nó có thể xử lý việc phân loại, ví dụ như tiêu đề, câu hỏi, câu và tin nhắn ngắn ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— DPS
nguồn

6

Mặc dù tôi không quen thuộc lắm với công việc của anh ấy, tôi biết Jacob Eisenstein đã thực hiện công việc phân tích văn bản và mô hình đồ họa trong dữ liệu twitter. Cụ thể, bài viết này mô tả một ứng dụng mô hình hóa chủ đề trong dữ liệu twitter và microblog.

Chỉnh sửa: thực sự sau khi đọc bài báo thêm một chút, họ tuyên bố:

Tuy nhiên, thông điệp trung bình trên Twitter chỉ là mười sáu mã thông báo, quá thưa thớt đối với mô hình chủ đề truyền thống; thay vào đó, chúng tôi tập hợp tất cả các tin nhắn từ một người dùng nhất định vào một tài liệu duy nhất.

Vì vậy, có lẽ chính bài báo đó có thể không giúp ích nhiều, nhưng vẫn có thể các ấn phẩm khác của Eisenstein có thể đưa bạn đi đúng hướng.

— Junier
nguồn

6

Một bài báo gần đây được gọi là " mô hình chủ đề biterm cho văn bản ngắn " (WWW13) đã đạt được một số tiến bộ về chủ đề này và đây là mã của nó

— Xiaohui Yan
nguồn

2

Tôi xác nhận rằng BiTerm LDA hoạt động khá tốt đối với các cách nói văn bản ngắn (3-8 từ) mô hình chủ đề và phân loại tiếp theo.

— Vladislavs Dovgalecs