Tôi đang điều tra các kỹ thuật khác nhau được sử dụng trong phân cụm tài liệu và tôi muốn xóa một số nghi ngờ liên quan đến PCA (phân tích thành phần chính) và LSA (phân tích ngữ nghĩa tiềm ẩn).
Điều đầu tiên - sự khác biệt giữa chúng là gì? Tôi biết rằng trong PCA, phân tách SVD được áp dụng cho ma trận hiệp phương sai, trong khi trong LSA, đó là ma trận tài liệu thuật ngữ. Có gì khác?
Thứ hai - vai trò của họ trong thủ tục phân cụm tài liệu là gì? Từ những gì tôi đã đọc cho đến nay, tôi suy luận rằng mục đích của họ là giảm tính chiều, giảm nhiễu và kết hợp các mối quan hệ giữa các thuật ngữ vào biểu diễn. Sau khi thực hiện PCA hoặc LSA, các thuật toán truyền thống như phương pháp k hoặc phương pháp kết tụ được áp dụng trên không gian hạn và các biện pháp tương tự điển hình, như khoảng cách cosine được sử dụng. Hãy sửa lại cho tôi nếu tôi sai.
Thứ ba - có vấn đề gì không nếu các vectơ thuật ngữ TF / IDF được chuẩn hóa trước khi áp dụng PCA / LSA hay không? Và họ có nên được bình thường hóa một lần nữa sau đó?
Thứ tư - giả sử tôi đã thực hiện một số phân cụm trên không gian hạn được giảm bởi LSA / PCA. Bây giờ, tôi nên gán nhãn cho cụm kết quả như thế nào? Vì kích thước không tương ứng với các từ thực tế, nên đây là một vấn đề khó khăn. Ý tưởng duy nhất nảy ra trong đầu tôi là tính toán trọng tâm cho từng cụm bằng cách sử dụng các vectơ thuật ngữ gốc và chọn các thuật ngữ có trọng số hàng đầu, nhưng nó không có vẻ rất hiệu quả. Có một số giải pháp cụ thể cho vấn đề này? Tôi đã không thể tìm thấy bất cứ điều gì.
Tôi sẽ rất biết ơn vì đã làm rõ những vấn đề này.