Tôi đang sử dụng phân tích ngữ nghĩa tiềm ẩn để thể hiện một kho tài liệu trong không gian chiều thấp hơn. Tôi muốn phân cụm các tài liệu này thành hai nhóm bằng cách sử dụng phương tiện k.
Cách đây vài năm, tôi đã làm điều này bằng cách sử dụng gensim của Python và viết thuật toán k-mean của riêng tôi. Tôi đã xác định các trọng tâm cụm bằng cách sử dụng khoảng cách Euclide, nhưng sau đó phân cụm từng tài liệu dựa trên độ tương tự cosine với trọng tâm. Nó dường như làm việc khá tốt.
Bây giờ tôi đang cố gắng làm điều này trên một kho tài liệu lớn hơn nhiều. K-nghĩa là không hội tụ và tôi tự hỏi liệu đó có phải là một lỗi trong mã của tôi không. Tôi đọc gần đây rằng bạn không nên phân cụm bằng cách sử dụng độ tương tự cosine, bởi vì k-mean chỉ hoạt động trên khoảng cách Euclide. Mặc dù, như tôi đã đề cập, nó có vẻ hoạt động tốt trong trường hợp thử nghiệm nhỏ hơn của tôi.
Bây giờ tôi bắt gặp điều này trên trang Wikipedia LSA :
Các tài liệu và biểu diễn vectơ có thể được phân cụm bằng các thuật toán phân cụm truyền thống như k-mean sử dụng các biện pháp tương tự như cosine.
Vậy đó là cái gì? Tôi có thể sử dụng tương tự cosine hay không?
I then assigned each document to a cluster based on cosine similarity
- Cosine giữa một doc và một centroid? Và sau khi tất cả các tài liệu được chỉ định, bạn cập nhật centroid theo cách thông thường (Euclide), bởi vì tọa độ của các tài liệu trong không gian đã được biết. Là vậy sao?