Tôi muốn sử dụng Latent Dirichlet Allocation cho một dự án và tôi đang sử dụng Python với thư viện gensim. Sau khi tìm thấy các chủ đề, tôi muốn phân cụm các tài liệu bằng thuật toán như k-mean (Lý tưởng nhất là tôi muốn sử dụng một chủ đề tốt cho các cụm chồng lấp để mọi khuyến nghị đều được hoan nghênh). Tôi quản lý để có được các chủ đề nhưng chúng ở dạng:
0,041 * Bộ trưởng + 0,041 * Khóa + 0,041 * khoảnh khắc + 0,041 * gây tranh cãi + 0,041 * Thủ tướng
Để áp dụng thuật toán phân cụm và sửa lỗi cho tôi nếu tôi sai, tôi tin rằng tôi nên tìm cách thể hiện mỗi từ dưới dạng một số bằng cách sử dụng tfidf hoặc word2vec.
Bạn có ý tưởng nào về cách tôi có thể "tước" thông tin văn bản từ ví dụ như một danh sách, để làm như vậy và sau đó đặt chúng trở lại để tạo ra phép nhân phù hợp không?
Chẳng hạn như cách tôi nhìn thấy nếu từ Bộ trưởng có trọng số tfidf là 0,042 và cứ như vậy đối với bất kỳ từ nào khác trong cùng một chủ đề tôi nên tính toán một cái gì đó như:
0,041 * 0,42 + ... + 0,041 * tfidf (Prime) và nhận kết quả sẽ được sử dụng sau này để phân cụm kết quả.
Cảm ơn bạn đã dành thời gian.