Một phương pháp tốt để phân cụm văn bản ngắn là gì?


15

Tôi đang làm việc trên một vấn đề cụm văn bản. Dữ liệu chứa một số câu. Có một thuật toán tốt đạt độ chính xác cao trên văn bản ngắn?

Bạn có thể cung cấp tài liệu tham khảo tốt?

Các thuật toán như KMeans, cụm phổ không hoạt động tốt cho vấn đề này.

Câu trả lời:


10

Điều đó chủ yếu phụ thuộc vào mức độ "hiện đại" (SOTA) mà bạn muốn so với mức độ bạn muốn đi sâu (ý định chơi chữ ...).

Nếu bạn có thể sống chỉ với các từ nhúng nông như được cung cấp bởi word2vec, Găng tay hoặc fastText, tôi nghĩ rằng Word Mover Khoảng cách (WMD [có, thực sự ...]) là một chức năng tốt để đo khoảng cách tài liệu (ngắn) [1] . Tôi thậm chí đã từng thấy một số Sổ tay Python trong quá khứ cung cấp "hướng dẫn" cho thước đo khoảng cách này, vì vậy nó thực sự dễ dàng để đi.

Tuy nhiên, nếu bạn quan tâm nhiều hơn đến SOTA, bạn sẽ phải xem xét việc học sâu (biểu diễn chuỗi), sử dụng một số loại mạng lặp lại học mô hình chủ đề từ các câu của bạn. Ngoài việc tích hợp các từ nhúng (ngữ nghĩa) của các từ, các cách tiếp cận này còn vượt xa cách tiếp cận "tốt, cũ" bằng cách học cách trình bày chủ đề bằng cách sử dụng các phụ thuộccủa các từ trong câu [s]. Ví dụ, Mô ​​hình chủ đề lặp lại mức câu (SLRTM) là một mô hình tái diễn sâu, khá thú vị dựa trên ý tưởng của LDA truyền thống hơn (bởi Blei et al.) Hoặc LSA (Landauer et al.), Nhưng đó chỉ là một arXiv giấy (vì vậy tất cả các "cảnh báo mang theo hạt muối" mặc định về nghiên cứu không được đánh giá ngang hàng nên được áp dụng ...) [2]. Dù sao đi nữa, bài báo có nhiều con trỏ và tài liệu tham khảo tuyệt vời để bắt đầu nghiên cứu của bạn nếu bạn muốn đi xuống lỗ thỏ này.

Cuối cùng, cần phải làm rõ rằng tôi không cho rằng đây là những phương pháp thực hiện tốt nhất theo thỏa thuận cho các mô hình từ và mô hình chuỗi tương ứng. Nhưng họ sẽ giúp bạn khá gần với bất cứ SOTA "tốt nhất" nào, và ít nhất nên đóng vai trò là điểm khởi đầu tuyệt vời.

[1] Matt J. Kusner và cộng sự. Từ nhúng nhúng đến khoảng cách tài liệu. Kỷ yếu hội thảo quốc tế lần thứ 32 về học máy, JMLR, 2015.

[2] Fei Tian et al. SLRTM: Để các chủ đề nói cho chính mình. arXiv 1604.02038, 2016.


tôi đã thử word2vec và nó không hoạt động tốt cho văn bản ngắn.
Nhiệt tình

Chỉ cần chắc chắn: Câu trả lời của tôi ở trên không khuyến nghị sử dụng word2vec (một mình) để phân cụm văn bản ngắn. Thay vào đó, nó khuyến nghị sử dụng các phương pháp WMD (trên các vectơ nhúng) và / hoặc phương pháp Deep Learning. (Tuy nhiên, nếu bạn có thể đào tạo vectơ riêng của bạn, bạn sẽ có được kết quả rất tốt với họ một mình, bằng cách sử dụng mềm Cosine tương đồng, ít nhất là cho một "nguyên mẫu hoàn toàn khả thi.")
FNL

-1

https://github.com/RandyPen/TextCluster
Đây là phương pháp Cluster dành riêng cho văn bản ngắn, vượt trội hơn so với KMeans, v.v. Không cần đặt số biến tiềm ẩn.
Ý tưởng cơ bản là token hóa câu thành từ. Sau đó trực tiếp đến xô khác nhau theo thành phần văn bản. Trong mỗi nhóm, tính toán sự tương đồng giữa câu và xô. Nếu điểm tương tự cao hơn giá trị cụ thể, hãy nối câu này vào nhóm đó, tìm kiếm nhóm tiếp theo.

căn bản


Bạn cần phải giải thích về câu trả lời của bạn. Đừng chỉ trích dẫn một liên kết.
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.