Những thuật ngữ này bị ném xung quanh nhau rất nhiều, nhưng tôi muốn biết bạn nghĩ sự khác biệt là gì, nếu có.
Cảm ơn
Những thuật ngữ này bị ném xung quanh nhau rất nhiều, nhưng tôi muốn biết bạn nghĩ sự khác biệt là gì, nếu có.
Cảm ơn
Câu trả lời:
LSA và LSI chủ yếu được sử dụng đồng nghĩa, với cộng đồng truy xuất thông tin thường gọi nó là LSI. LSA / LSI sử dụng SVD để phân tách ma trận tài liệu thuật ngữ A thành ma trận khái niệm thuật ngữ U, ma trận giá trị số ít S và ma trận tài liệu khái niệm V ở dạng: A = USV '. Trang wikipedia có mô tả chi tiết về lập chỉ mục ngữ nghĩa tiềm ẩn .
Đáng chú ý là trong khi LSA và LSI sử dụng SVD để thực hiện phép thuật của họ, có một phương pháp đơn giản về mặt tính toán và khái niệm gọi là HAL (Hyperspace Analogue to Language) chuyển qua văn bản theo dõi các bối cảnh trước và sau. Các vectơ được trích xuất từ các ma trận xuất hiện (thường có trọng số) này và các từ cụ thể được chọn để lập chỉ mục không gian ngữ nghĩa. Theo nhiều cách, tôi được cho là hiểu nó hoạt động tốt như LSA mà không yêu cầu bước phức tạp về mặt toán học / khái niệm của SVD. Xem Lund & Burgess, 1996 để biết chi tiết.
NMF và SVD đều là các thuật toán nhân tố ma trận. Wikipedia có một số thông tin liên quan về NMF .
SVD và PCA có liên quan mật thiết với nhau. Đối với người mới bắt đầu, PCA chỉ đơn giản là sự xuất hiện của mối tương quan. SVD là một khái quát của quá trình eigendecro đến ma trận không vuông. Các giá trị số ít là căn bậc hai của các giá trị riêng của ma trận nhân với chuyển vị của nó (làm cho nó vuông và có thể điều chỉnh được cho phép xuất tinh). Hơn nữa, nếu ma trận là bình thường (), các giá trị số ít chỉ đơn giản là các giá trị tuyệt đối của các giá trị riêng. Trong mọi trường hợp, các giá trị số ít là không âm và mất dấu của giá trị riêng là giá bạn phải trả để có thể làm việc với ma trận không vuông.
Những người trả lời khác đã bảo hiểm LSI / LSA ...