Mô hình chủ đề cho các tài liệu ngắn


14

Lấy cảm hứng từ câu hỏi này , tôi tự hỏi liệu có bất kỳ công việc nào đã được thực hiện trên các mô hình chủ đề cho các bộ sưu tập lớn các văn bản cực ngắn. Trực giác của tôi là Twitter nên là nguồn cảm hứng tự nhiên cho những mô hình như vậy. Tuy nhiên, từ một số thử nghiệm hạn chế, có vẻ như các mô hình chủ đề tiêu chuẩn (LDA, v.v.) hoạt động khá kém trên loại dữ liệu này.

Có ai ngoài đó biết bất kỳ công việc đã được thực hiện trong lĩnh vực này? Bài viết này nói về việc áp dụng LDA cho Twitter, nhưng tôi thực sự quan tâm đến việc liệu có các thuật toán khác hoạt động tốt hơn trong bối cảnh tài liệu ngắn hay không.


2
Twitter là một bộ dữ liệu đặc biệt khó khăn cho việc lập mô hình chủ đề không chỉ do kích thước nhỏ của 'tài liệu', mà còn do loại văn bản. Mọi người có xu hướng sử dụng các tốc ký nhắn tin khác nhau khiến cho việc xác định các lần xuất hiện trở nên khó khăn hơn.
Nick

Xem danh sách các bài báo hay và mã nguồn tương ứng để lập mô hình chủ đề trên Tweets tại: quora.com/ Kẻ
NQD

Câu trả lời:


7

Đây là một câu trả lời muộn, nhưng nó có thể hữu ích cho những người khác đang tìm kiếm các công cụ và nghiên cứu liên quan cho vấn đề này:

  1. Weiwei Guo từ Columbia đã triển khai mã cho mô hình chủ đề văn bản ngắn. Ông mô tả việc thực hiện trong bài báo "Mô hình hóa các câu trong không gian tiềm ẩn" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) và mã có sẵn tại đây: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Mặc dù đây không phải là mô hình chủ đề, nhưng nếu bạn có một nhiệm vụ phân loại liên quan đến các đoạn văn bản ngắn, bạn có thể sử dụng LibShortText. Từ mô tả trang web của họ

"LibShortText là một công cụ nguồn mở để phân loại và phân tích văn bản ngắn. Nó có thể xử lý việc phân loại, ví dụ như tiêu đề, câu hỏi, câu và tin nhắn ngắn ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

Mặc dù tôi không quen thuộc lắm với công việc của anh ấy, tôi biết Jacob Eisenstein đã thực hiện công việc phân tích văn bản và mô hình đồ họa trong dữ liệu twitter. Cụ thể, bài viết này mô tả một ứng dụng mô hình hóa chủ đề trong dữ liệu twitter và microblog.

Chỉnh sửa: thực sự sau khi đọc bài báo thêm một chút, họ tuyên bố:

Tuy nhiên, thông điệp trung bình trên Twitter chỉ là mười sáu mã thông báo, quá thưa thớt đối với mô hình chủ đề truyền thống; thay vào đó, chúng tôi tập hợp tất cả các tin nhắn từ một người dùng nhất định vào một tài liệu duy nhất.

Vì vậy, có lẽ chính bài báo đó có thể không giúp ích nhiều, nhưng vẫn có thể các ấn phẩm khác của Eisenstein có thể đưa bạn đi đúng hướng.


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.