Sử dụng phân cụm trong xử lý văn bản

11

Xin chào, đây là câu hỏi đầu tiên của tôi trong ngăn xếp Khoa học dữ liệu. Tôi muốn tạo một thuật toán để phân loại văn bản. Giả sử tôi có một bộ lớn các văn bản và bài viết. Hãy nói khoảng 5000 văn bản đơn giản. Trước tiên tôi sử dụng một hàm đơn giản để xác định tần số của tất cả bốn từ và ký tự trên. Sau đó tôi sử dụng điều này như là tính năng của từng mẫu đào tạo. Bây giờ tôi muốn thuật toán của tôi có thể phân cụm các tập huấn theo các tính năng của chúng, đây là tần số của mỗi từ trong bài viết. (Lưu ý rằng trong ví dụ này, mỗi bài viết sẽ có một tính năng độc đáo riêng vì mỗi bài viết có một tính năng khác nhau, ví dụ: một bài viết có 10 "nước và 23" tinh khiết "và một bài viết khác có 8" chính trị "và 14" đòn bẩy "). Bạn có thể đề xuất thuật toán phân cụm tốt nhất có thể cho ví dụ này không?

text-mining clustering

— Phát ban
nguồn

5

Tôi không biết nếu bạn đã từng đọc SenseCluster của Ted Pedersen: http : //sensecl cluster.sourceforge.net/ . Giấy rất tốt cho cụm cảm giác.

Ngoài ra, khi bạn phân tích các từ, hãy nghĩ rằng "máy tính", "máy tính", "tính toán", ... đại diện cho một khái niệm, do đó chỉ có một tính năng. Rất quan trọng để phân tích chính xác.

Để nói về thuật toán phân cụm, bạn có thể sử dụng phân cụm theo cấp bậc . Ở mỗi bước của thuật toán, bạn hợp nhất 2 văn bản giống nhau nhất theo các tính năng của chúng (ví dụ sử dụng thước đo độ không giống nhau, khoảng cách euclide). Với mức độ khác nhau đó, bạn có thể tìm thấy số cụm tốt nhất và do đó, phân cụm tốt nhất cho các văn bản và bài viết của bạn.

Chúc may mắn :)

— JC R
nguồn

6

Nếu bạn muốn tiếp tục trên con đường hiện tại của mình, tôi khuyên bạn nên bình thường hóa tần suất của mỗi thuật ngữ bằng mức độ phổ biến của nó trong toàn bộ kho, vì vậy các từ hiếm và do đó có thể dự đoán được quảng bá. Sau đó, sử dụng các phép chiếu ngẫu nhiên để giảm kích thước của các vectơ rất dài này xuống kích thước để thuật toán phân cụm của bạn sẽ hoạt động tốt hơn (bạn không muốn phân cụm trong không gian nhiều chiều).

Nhưng có những cách khác của mô hình chủ đề. Đọc hướng dẫn này để tìm hiểu thêm.

— Emre
nguồn

2

Không thể nói nó là cái tốt nhất, nhưng Phân tích ngữ nghĩa tiềm ẩn có thể là một lựa chọn. Về cơ bản nó dựa trên sự xuất hiện, bạn cần phải cân nó trước.

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/ con / dp1.LSAintro.pdf

Vấn đề là LSA không có hỗ trợ thống kê vững chắc.

Chúc vui vẻ

— Chen Guo
nguồn

0

Một cách để phân loại văn bản là bằng cách tính Tần suất kỳ hạn và Tần suất tài liệu nghịch đảo. Bạn có thể tham khảo bài viết này: http://www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf

— Rajan Kumar Kharel
nguồn