LSA so với PCA (phân cụm tài liệu)


25

Tôi đang điều tra các kỹ thuật khác nhau được sử dụng trong phân cụm tài liệu và tôi muốn xóa một số nghi ngờ liên quan đến PCA (phân tích thành phần chính) và LSA (phân tích ngữ nghĩa tiềm ẩn).

Điều đầu tiên - sự khác biệt giữa chúng là gì? Tôi biết rằng trong PCA, phân tách SVD được áp dụng cho ma trận hiệp phương sai, trong khi trong LSA, đó là ma trận tài liệu thuật ngữ. Có gì khác?

Thứ hai - vai trò của họ trong thủ tục phân cụm tài liệu là gì? Từ những gì tôi đã đọc cho đến nay, tôi suy luận rằng mục đích của họ là giảm tính chiều, giảm nhiễu và kết hợp các mối quan hệ giữa các thuật ngữ vào biểu diễn. Sau khi thực hiện PCA hoặc LSA, các thuật toán truyền thống như phương pháp k hoặc phương pháp kết tụ được áp dụng trên không gian hạn và các biện pháp tương tự điển hình, như khoảng cách cosine được sử dụng. Hãy sửa lại cho tôi nếu tôi sai.

Thứ ba - có vấn đề gì không nếu các vectơ thuật ngữ TF / IDF được chuẩn hóa trước khi áp dụng PCA / LSA hay không? Và họ có nên được bình thường hóa một lần nữa sau đó?

Thứ tư - giả sử tôi đã thực hiện một số phân cụm trên không gian hạn được giảm bởi LSA / PCA. Bây giờ, tôi nên gán nhãn cho cụm kết quả như thế nào? Vì kích thước không tương ứng với các từ thực tế, nên đây là một vấn đề khó khăn. Ý tưởng duy nhất nảy ra trong đầu tôi là tính toán trọng tâm cho từng cụm bằng cách sử dụng các vectơ thuật ngữ gốc và chọn các thuật ngữ có trọng số hàng đầu, nhưng nó không có vẻ rất hiệu quả. Có một số giải pháp cụ thể cho vấn đề này? Tôi đã không thể tìm thấy bất cứ điều gì.

Tôi sẽ rất biết ơn vì đã làm rõ những vấn đề này.


LSA hay LSI: giống hay khác nhau? Nếu bạn có nghĩa là LSI = lập chỉ mục ngữ nghĩa tiềm ẩn, vui lòng sửa và chuẩn hóa.
Nick Cox

3
Có phải LSI và LSA là hai thứ khác nhau? Tôi nghĩ rằng họ là tương đương.
dùng1315305

1
Tôi không có ý kiến; vấn đề là (xin vui lòng) sử dụng một thuật ngữ cho một điều chứ không phải hai; nếu không thì câu hỏi của bạn thậm chí còn khó hiểu hơn.
Nick Cox

Ok, tôi đã sửa chữa nó. Cảm ơn bạn đã chỉ ra :)
user1315305 26/07/13

3
Wikipedia cho ấn tượng rằng LSA = LSI. Nhưng LSI là phân tích tương ứng (CA). CA là một thuật ngữ phân tích thống kê, giống như PCA, trong khi LSI / LSA là thuật ngữ khai thác văn bản. Vì vậy, tìm kiếm các bài viết so sánh PCA và CA.
ttnphns

Câu trả lời:


8
  1. PCA và LSA đều là các phân tích sử dụng SVD. PCA là một lớp phân tích chung và về nguyên tắc có thể được áp dụng cho văn bản liệt kê theo nhiều cách khác nhau. Ngược lại, LSA là một phương tiện phân tích và giảm văn bản được chỉ định rất rõ ràng. Cả hai đều tận dụng ý tưởng rằng ý nghĩa có thể được trích xuất từ ​​ngữ cảnh. Trong LSA, bối cảnh được cung cấp trong các số thông qua ma trận tài liệu hạn. Trong PCA, bối cảnh đề xuất của bạn được cung cấp theo các con số thông qua việc cung cấp ma trận hiệp phương sai thuật ngữ (chi tiết về thế hệ có thể có thể cho bạn biết nhiều hơn về mối quan hệ giữa PCA và LSA của bạn). Bạn có thể muốn xem ở đây để biết thêm chi tiết.
  2. Bạn đang cơ bản theo dõi ở đây. Những lý do chính xác mà chúng được sử dụng sẽ phụ thuộc vào bối cảnh và mục đích của người chơi với dữ liệu.
  3. Câu trả lời có thể sẽ phụ thuộc vào việc thực hiện quy trình bạn đang sử dụng.
  4. Cẩn thận và với nghệ thuật tuyệt vời. Hầu hết coi kích thước của các mô hình ngữ nghĩa này là không thể giải thích được. Lưu ý rằng bạn gần như chắc chắn mong đợi có nhiều hơn một độ mờ cơ bản. Khi có nhiều hơn một chiều trong phân tích nhân tố, chúng tôi xoay giải pháp nhân tố để mang lại các yếu tố có thể tương tác. Tuy nhiên, vì một số lý do, điều này thường không được thực hiện cho các mô hình này. Cách tiếp cận của bạn nghe có vẻ như là một cách có nguyên tắc để bắt đầu nghệ thuật của bạn ... mặc dù tôi ít chắc chắn rằng tỷ lệ giữa các kích thước là đủ tương tự để tin tưởng vào một giải pháp phân tích cụm. Nếu bạn muốn chơi xung quanh với ý nghĩa, bạn cũng có thể xem xét một cách tiếp cận đơn giản hơn trong đó các vectơ có mối quan hệ trực tiếp với các từ cụ thể, ví dụ HAL .

6

LSI được tính toán trên ma trận tài liệu thuật ngữ, trong khi PCA được tính trên ma trận hiệp phương sai, có nghĩa là LSI cố gắng tìm không gian con tuyến tính tốt nhất để mô tả tập dữ liệu, trong khi PCA cố gắng tìm không gian con tuyến tính song song tốt nhất.


4
Nick, bạn có thể cung cấp thêm chi tiết về sự khác biệt giữa không gian con tuyến tính tốt nhất và không gian con tuyến tính song song tốt nhất không? Điều này có liên quan đến tính trực giao? Tôi có nên hỏi những điều này như một câu hỏi mới không?
russellpierce

1
Tốt nhất theo nghĩa nào? Giảm thiểu định mức Frobinius của lỗi tái thiết? Trong trường hợp đó, chắc chắn âm thanh như PCA đối với tôi.
Andrew M

2

Chỉ cần một số phần mở rộng cho câu trả lời của russellpierce.

1) Về cơ bản LSA là PCA được áp dụng cho dữ liệu văn bản. Khi sử dụng SVD cho PCA, nó không được áp dụng cho ma trận hiệp phương sai mà là ma trận mẫu tính năng trực tiếp, đây chỉ là ma trận tài liệu thuật ngữ trong LSA. Sự khác biệt là PCA thường yêu cầu chuẩn hóa tính năng cho dữ liệu trong khi LSA thì không.

Có một bài giảng hay của Andrew Ng minh họa các kết nối giữa PCA và LSA.

2/3) Vì dữ liệu tài liệu có độ dài khác nhau, thông thường sẽ rất hữu ích để bình thường hóa cường độ. Ở đây, chuẩn hóa mẫu-khôn ngoan nên được sử dụng không phải là chuẩn hóa theo tính năng. Trong thực tế tôi thấy hữu ích để bình thường hóa cả trước và sau LSI.

Nếu số liệu thuật toán phân cụm không phụ thuộc vào cường độ (giả sử khoảng cách cosine) thì bước chuẩn hóa cuối cùng có thể được bỏ qua.

4) Nhìn chung, đây là một vấn đề khó khăn để có được các nhãn có ý nghĩa từ các cụm. Một số người trích xuất các thuật ngữ / cụm từ tối đa hóa sự khác biệt trong phân phối giữa kho văn bản và cụm. Một cách khác là sử dụng phân cụm bán giám sát với các nhãn được xác định trước.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.