Tôi đang cố gắng thực hiện phân cụm cấp độ tài liệu. Tôi đã xây dựng ma trận tần số tài liệu thuật ngữ và tôi đang cố gắng phân cụm các vectơ chiều cao này bằng phương tiện k. Thay vì phân cụm trực tiếp, điều tôi đã làm trước tiên là áp dụng phân tách vectơ số ít của LSA (Phân tích ngữ nghĩa tiềm ẩn) để thu được các ma trận U, S, Vt, chọn một ngưỡng phù hợp bằng cách sử dụng biểu đồ scree và phân cụm áp dụng trên các ma trận giảm (cụ thể là Vt vì nó cung cấp cho tôi một thông tin tài liệu khái niệm) dường như mang lại cho tôi kết quả tốt.
Tôi đã nghe một số người nói rằng SVD (phân tách vectơ số ít) đang phân cụm (bằng cách sử dụng thước đo tương tự cosine, v.v.) và không chắc chắn liệu tôi có thể áp dụng phương tiện k trên đầu ra của SVD hay không. Tôi nghĩ rằng nó là chính xác về mặt logic bởi vì SVD là một kỹ thuật giảm kích thước, mang lại cho tôi một loạt các vectơ mới. mặt khác, k-mean sẽ lấy số cụm làm đầu vào và chia các vectơ này thành số cụm được chỉ định. Là thủ tục này thiếu sót hoặc có những cách mà điều này có thể được cải thiện? Bất kỳ đề xuất?