Tôi có một vấn đề sau: Tôi có một danh sách rất dài các từ, có thể là tên, họ, v.v. Tôi cần phải phân cụm danh sách từ này, sao cho các từ tương tự, ví dụ các từ có khoảng cách chỉnh sửa tương tự (Levenshtein) xuất hiện trong cùng cụm. Ví dụ: "thuật toán" và "alogrithm" sẽ có cơ hội cao xuất hiện trong cùng một cụm.
Tôi nhận thức rõ về các phương pháp phân cụm không giám sát cổ điển như phân cụm k-nghĩa, phân cụm EM trong tài liệu Nhận dạng mẫu. Vấn đề ở đây là các phương thức này hoạt động trên các điểm nằm trong không gian vectơ. Tôi có lời của chuỗi trong tay của tôi ở đây. Dường như, câu hỏi làm thế nào để biểu diễn các chuỗi trong một không gian vectơ số và tính toán "phương tiện" của các cụm chuỗi không được trả lời đầy đủ, theo những nỗ lực khảo sát của tôi cho đến bây giờ. Một cách tiếp cận ngây thơ để tấn công vấn đề này sẽ là kết hợp phân cụm k-Means với khoảng cách Levenshtein, nhưng câu hỏi vẫn là "Làm thế nào để biểu diễn" nghĩa là "của chuỗi?". Có một trọng số được gọi là trọng số TF-IDF, nhưng dường như nó chủ yếu liên quan đến khu vực phân cụm "tài liệu văn bản", không dành cho việc phân cụm các từ đơn lẻ. http://pike.psu.edu/cleandb06/ con /CameraReady_120.pdf
Tìm kiếm của tôi trong lĩnh vực này vẫn đang diễn ra, nhưng tôi cũng muốn lấy ý tưởng từ đây. Bạn muốn làm gì trong trường hợp này, có ai biết về bất kỳ phương pháp nào cho loại vấn đề này không?
It seems that there are some special string clustering algorithms
. Nếu bạn đến từ lĩnh vực khai thác văn bản cụ thể, không phải phân tích thống kê / dữ liệu, tuyên bố này được bảo hành. Tuy nhiên, nếu bạn học cách phân nhánh vì bạn sẽ thấy rằng không tồn tại thuật toán "đặc biệt" cho dữ liệu chuỗi. "Đặc biệt" là cách bạn xử lý trước dữ liệu đó trước khi nhập dữ liệu vào phân tích cụm.