Sự khác biệt giữa phân tích ngữ nghĩa tiềm ẩn (LSA), lập chỉ mục ngữ nghĩa tiềm ẩn (LSI) và phân rã giá trị số ít (SVD) là gì?


15

Những thuật ngữ này bị ném xung quanh nhau rất nhiều, nhưng tôi muốn biết bạn nghĩ sự khác biệt là gì, nếu có.

Cảm ơn

Câu trả lời:


12

LSA và LSI chủ yếu được sử dụng đồng nghĩa, với cộng đồng truy xuất thông tin thường gọi nó là LSI. LSA / LSI sử dụng SVD để phân tách ma trận tài liệu thuật ngữ A thành ma trận khái niệm thuật ngữ U, ma trận giá trị số ít S và ma trận tài liệu khái niệm V ở dạng: A = USV '. Trang wikipedia có mô tả chi tiết về lập chỉ mục ngữ nghĩa tiềm ẩn .


8

Đáng chú ý là trong khi LSA và LSI sử dụng SVD để thực hiện phép thuật của họ, có một phương pháp đơn giản về mặt tính toán và khái niệm gọi là HAL (Hyperspace Analogue to Language) chuyển qua văn bản theo dõi các bối cảnh trước và sau. Các vectơ được trích xuất từ ​​các ma trận xuất hiện (thường có trọng số) này và các từ cụ thể được chọn để lập chỉ mục không gian ngữ nghĩa. Theo nhiều cách, tôi được cho là hiểu nó hoạt động tốt như LSA mà không yêu cầu bước phức tạp về mặt toán học / khái niệm của SVD. Xem Lund & Burgess, 1996 để biết chi tiết.


4
... tóm tắt lại công việc trước đây của Finch và Chater (1992, 1994), Schütze (1993) và những người khác. HAL, LSA và các tác phẩm nghệ thuật trước đây bằng cách tạo ra một thước đo tương tự cho các từ bằng cách tính toán độ tương tự theo ngữ cảnh của chúng. (Đây là điểm tương tự 'thứ tự thứ hai' của Shephard: sự tương tự 'thứ tự thứ nhất' là khi từ a xảy ra gần từ b; 'thứ tự thứ hai' là từ a xảy ra gần giống với từ loại b).
liên hợp chiến binh

3
So sánh và đối chiếu: Đối với LSA, bối cảnh là tài liệu hoàn chỉnh. Đối với HAL và những người khác, đó là một cửa sổ văn bản bao quanh từ mục tiêu. LSA đo khoảng cách trong một không gian con tuyến tính được trích xuất thông qua SVD / PCA, và thỏa thuận khác với khoảng cách trong không gian ban đầu của số lượng từ xung quanh.
liên hợp chiến binh

6

NMF và SVD đều là các thuật toán nhân tố ma trận. Wikipedia có một số thông tin liên quan về NMF .

SVD và PCA có liên quan mật thiết với nhau. Đối với người mới bắt đầu, PCA chỉ đơn giản là sự xuất hiện của mối tương quan. SVD là một khái quát của quá trình eigendecro đến ma trận không vuông. Các giá trị số ít là căn bậc hai của các giá trị riêng của ma trận nhân với chuyển vị của nó (làm cho nó vuông và có thể điều chỉnh được cho phép xuất tinh). Hơn nữa, nếu ma trận là bình thường (Một*Một= =MộtMột*), các giá trị số ít chỉ đơn giản là các giá trị tuyệt đối của các giá trị riêng. Trong mọi trường hợp, các giá trị số ít là không âm và mất dấu của giá trị riêng là giá bạn phải trả để có thể làm việc với ma trận không vuông.

Những người trả lời khác đã bảo hiểm LSI / LSA ...


nó nên là ma trận hiệp phương sai, phải không? không phải ma trận tương quan.
Rafael

Có, trừ khi bạn tập trung vào các biến của mình trước.
Emre

sau khi bình thường hóa các biến, nó trở thành ma trận tương quan?
Rafael

Bình thường hóa là trung tâm với tỷ lệ, vì vậy đó là khác nhau.
Emre
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.