Câu hỏi:
Có bất kỳ hướng dẫn chung nào liên quan đến các đặc điểm dữ liệu đầu vào, có thể được sử dụng để quyết định giữa việc áp dụng PCA so với LSA / LSI không?
Tóm tắt ngắn gọn về PCA so với LSA / LSI:
Phân tích thành phần nguyên tắc (PCA) và Phân tích ngữ nghĩa tiềm ẩn (LSA) hoặc lập chỉ mục ngữ nghĩa tiềm ẩn (LSI) tương tự nhau theo nghĩa cơ bản là tất cả chúng đều dựa vào việc áp dụng Phân tích giá trị đơn lẻ (SVD) vào ma trận.
LSA và LSI, theo như tôi có thể nói, điều tương tự. LSA khác với PCA về cơ bản, nhưng về cách thức các mục ma trận được xử lý trước khi áp dụng SVD.
Trong LSA, bước tiền xử lý thường bao gồm bình thường hóa ma trận đếm trong đó các cột tương ứng với 'tài liệu' và các hàng tương ứng với một số loại từ. Các mục có thể được coi là một số loại (xuất hiện) từ tính xuất hiện cho tài liệu.
Trong PCA, bước tiền xử lý bao gồm tính toán ma trận hiệp phương sai từ ma trận gốc. Ma trận ban đầu về mặt khái niệm là 'chung chung' hơn trong trường hợp LSA. Trong trường hợp PCA có liên quan, các cột thường được cho là đề cập đến các vectơ mẫu chung và các hàng được cho là đề cập đến các biến riêng lẻ đang được đo. Ma trận hiệp phương sai theo định nghĩa bình phương và đối xứng và trên thực tế không cần thiết phải áp dụng SVD, bởi vì ma trận hiệp phương sai có thể được phân tách thông qua đường chéo. Đáng chú ý, ma trận PCA gần như chắc chắn sẽ dày đặc hơn biến thể LSA / LSI - các mục nhập 0 sẽ chỉ xảy ra khi hiệp phương sai giữa các biến bằng 0, đó là nơi các biến độc lập.
Cuối cùng, một điểm mô tả nữa được thực hiện khá thường xuyên để phân biệt hai điểm đó là
LSA tìm kiếm không gian con tuyến tính tốt nhất trong định mức Frobenius, trong khi PCA nhắm đến không gian con tuyến tính affine tốt nhất.
Trong mọi trường hợp, sự khác biệt và tương đồng của các kỹ thuật này đã được tranh luận sôi nổi trên các diễn đàn khác nhau trên khắp các quốc gia, và rõ ràng có một số khác biệt nổi bật, và rõ ràng hai kỹ thuật này sẽ tạo ra kết quả khác nhau.
Do đó, tôi nhắc lại câu hỏi của mình: Có bất kỳ hướng dẫn chung nào liên quan đến các đặc điểm dữ liệu đầu vào, có thể được sử dụng để quyết định giữa việc áp dụng PCA so với LSA / LSI không? Nếu tôi có một cái gì đó giống như ma trận tài liệu thuật ngữ thì LSA / LSI sẽ luôn là lựa chọn tốt nhất? Có thể mong đợi nhận được kết quả tốt hơn trong một số trường hợp bằng cách chuẩn bị ma trận thuật ngữ / doc cho LSA / LSI và sau đó áp dụng PCA cho kết quả, thay vì áp dụng trực tiếp SVD?