Hiểu về phân rã giá trị số ít trong bối cảnh LSI

Câu hỏi của tôi nói chung là về Phân tách giá trị số đơn (SVD), và đặc biệt là về lập chỉ mục ngữ nghĩa tiềm ẩn (LSI).

Nói rằng, tôi có có tần số 5 từ cho 7 tài liệu. $A_{word \times document}$

A =  matrix(data=c(2,0,8,6,0,3,1,
                   1,6,0,1,7,0,1,
                   5,0,7,4,0,5,6,
                   7,0,8,5,0,8,5,
                   0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')

Tôi nhận được Phân tích nhân ma trận cho bằng cách sử dụng SVD: . $A$ $A = U \cdot D \cdot V^T$

s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.

Trong 1 và 2 , có ghi rằng:

đưa ra ma trận tương tự từ, trong đó các hàng của đại diện cho các từ khác nhau. $WordSim = U \cdot S$ $WordSim$

WordSim = s$u %*% S

đưa ra ma trận tương tự tài liệutrong đó các cột của đại diện cho các tài liệu khác nhau. $DocSim= S \cdot V^T$ $DocSim$

DocSim = S %*% t(s$v)

Câu hỏi:

Theo đại số, tại sao và ma trận tương tự từ / tài liệu? Có một lời giải thích trực quan? $WordSim$ $DocSimS$
Dựa trên ví dụ R đã cho, chúng ta có thể thực hiện bất kỳ quan sát đếm / tương tự từ trực quan nào không bằng cách chỉ nhìn vào và (không sử dụng hệ số tương tự hoặc hệ số tương quan giữa các hàng / cột)? $WordSim$ $DocSim$

nhập mô tả hình ảnh ở đây

r svd natural-language latent-semantic-indexing

— Zhubarb
nguồn

Tôi biết rất ít về LSI, nhưng SVD của một ma trận là cốt lõi của việc giảm kích thước tuyến tính, các phương pháp ánh xạ, chẳng hạn như các thành phần chính, biplots, phân tích Tương ứng. "Định luật" chính của SVD là

= hình chiếu các hàng của

lên các trục chính; và

= chiếu các cột của

lên các trục chính. Theo một nghĩa nào đó, đó là giá trị "tương tự" giữa các điểm (hàng hoặc cột) và trục chính. Liệu nó có thể được coi là sự tương đồng giữa các điểm hay không phụ thuộc vào bối cảnh, tôi nghĩ vậy.

A V = U D

$AV=UD$

A

$A$

A^{'} U = V D^{'}

$A'U=VD'$

A

$A$

— ttnphns

À .. tôi thấy trong wikipedia rằng LSI chỉ là phân tích tương ứng (CA). Cái đó tốt hơn. CA là biplot của một bảng dữ liệu được chuẩn bị đặc biệt. Các phép chiếu hoặc tọa độ đã nói ở trên - bạn sử dụng chúng để vẽ các điểm hàng và cột trong không gian của các trục chính. Sự gần gũi giữa các điểm hàng, col-col và row-col liên quan đến sự giống nhau của chúng. Tuy nhiên, bố cục trên cốt truyện phụ thuộc vào cách bạn trải quán tính (phương sai) trên hàng và điểm col.

— ttnphns

@ttnphns. Cảm ơn bạn, bạn có thể cho một tài liệu tham khảo trên: "

= chiếu hàng của A lên các trục chính; và

= chiếu các cột của A lên các trục chính"? Tôi nghĩ rằng sẽ làm rõ mọi thứ cho tôi. Theo các trục chính, bạn có nghĩa là các vectơ riêng tương ứng với các giá trị số ít m hàng đầu trong

? Tôi cũng đã bắt gặp: "Đối với PCA, chúng tôi không cần tính toán các vectơ số ít bên trái", nhưng không thể hiểu hoàn toàn lý do tại sao lại như vậy.

A V = U D

$AV=UD$

A' U = V D'

$A ′ U=VD ′$

D

$D$

— Zhubarb

Câu hỏi của bạn có thể được cải thiện bằng cách chỉnh sửa nó để phản ánh chính xác những gì tài liệu đó nêu. Trên P. 22 nó định nghĩa

S

$S$ là chứa các căn bậc hai của

, "giới hạn" đối với các căn lớn nhất. Do đó không phải

hay

là có liên quan, cũng không có giải thích là "ma trận tương tự." Các ma trận có liên quan thay vì

và

. Chúng có thể được sử dụng để tái tạo lại một xấp xỉ của

D

$D$

U D

$UD$

D V^{'}

$DV^\prime$

U S

$US$

S V^{'}

$SV^\prime$

A = U D V^{'} \approx U (S^{2}) V^{'} = (U S) (S V^{'}) .

$A=UDV^\prime\approx U(S^2)V^\prime=(US)(SV^\prime).$

— whuber

Tôi giả định D=svd(A)$dtrong lợi nhuận R rễ bậc hai của phi zero-eigen giá trị, do đó tôi đã sử dụng

. Tôi không có vấn đề gì với khía cạnh giảm kích thước và tôi hiểu một xấp xỉ thứ hạng thấp hơn của A có thể được hình thành như họ mô tả. Tôi tìm thấy câu trả lời trên liên kết này một phần trả lời câu hỏi của tôi.

U D

$UD$

— Zhubarb

Hệ số ma trận sử dụng SVD phân tách ma trận đầu vào thành ba phần:

$U$
$D$ $D$ $U$ $V^T$
$V^T$

$WordSim$

— Thành phố
nguồn