Sử dụng phân cụm trong xử lý văn bản


11

Xin chào, đây là câu hỏi đầu tiên của tôi trong ngăn xếp Khoa học dữ liệu. Tôi muốn tạo một thuật toán để phân loại văn bản. Giả sử tôi có một bộ lớn các văn bản và bài viết. Hãy nói khoảng 5000 văn bản đơn giản. Trước tiên tôi sử dụng một hàm đơn giản để xác định tần số của tất cả bốn từ và ký tự trên. Sau đó tôi sử dụng điều này như là tính năng của từng mẫu đào tạo. Bây giờ tôi muốn thuật toán của tôi có thể phân cụm các tập huấn theo các tính năng của chúng, đây là tần số của mỗi từ trong bài viết. (Lưu ý rằng trong ví dụ này, mỗi bài viết sẽ có một tính năng độc đáo riêng vì mỗi bài viết có một tính năng khác nhau, ví dụ: một bài viết có 10 "nước và 23" tinh khiết "và một bài viết khác có 8" chính trị "và 14" đòn bẩy "). Bạn có thể đề xuất thuật toán phân cụm tốt nhất có thể cho ví dụ này không?

Câu trả lời:


5

Tôi không biết nếu bạn đã từng đọc SenseCluster của Ted Pedersen: http : //sensecl cluster.sourceforge.net/ . Giấy rất tốt cho cụm cảm giác.

Ngoài ra, khi bạn phân tích các từ, hãy nghĩ rằng "máy tính", "máy tính", "tính toán", ... đại diện cho một khái niệm, do đó chỉ có một tính năng. Rất quan trọng để phân tích chính xác.

Để nói về thuật toán phân cụm, bạn có thể sử dụng phân cụm theo cấp bậc . Ở mỗi bước của thuật toán, bạn hợp nhất 2 văn bản giống nhau nhất theo các tính năng của chúng (ví dụ sử dụng thước đo độ không giống nhau, khoảng cách euclide). Với mức độ khác nhau đó, bạn có thể tìm thấy số cụm tốt nhất và do đó, phân cụm tốt nhất cho các văn bản và bài viết của bạn.

Chúc may mắn :)


6

Nếu bạn muốn tiếp tục trên con đường hiện tại của mình, tôi khuyên bạn nên bình thường hóa tần suất của mỗi thuật ngữ bằng mức độ phổ biến của nó trong toàn bộ kho, vì vậy các từ hiếm và do đó có thể dự đoán được quảng bá. Sau đó, sử dụng các phép chiếu ngẫu nhiên để giảm kích thước của các vectơ rất dài này xuống kích thước để thuật toán phân cụm của bạn sẽ hoạt động tốt hơn (bạn không muốn phân cụm trong không gian nhiều chiều).

Nhưng có những cách khác của mô hình chủ đề. Đọc hướng dẫn này để tìm hiểu thêm.



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.