Một parellel giữa LSA và pLSA


9

Trong bài báo gốc của pLSA , tác giả, Thomas Hoffman, đã vẽ song song giữa các cấu trúc dữ liệu pLSA và LSA mà tôi muốn thảo luận với bạn.

Lý lịch:

Lấy cảm hứng từ Truy xuất thông tin, giả sử chúng ta có một bộ tài liệu và một từ vựng về các thuật ngữD = { d 1 , d 2 , . . . . , D N } M Ω = { ω 1 , ω 2 , . . . , ω M }N

D={d1,d2,....,dN}
M
Ω={ω1,ω2,...,ωM}

Một kho văn bản có thể được biểu diễn bằng ma trận của các cooccurences.N × MXN×M

Trong Phân tích ngữ nghĩa tiềm ẩn của SVD , ma trận được tính theo ba ma trận: trong đó và là các giá trị số ít của và là thứ hạng của .X

X=UΣVT
Σ=diag{σ1,...,σs}σiXsX

Xấp xỉ LSA của sau đó được tính toán cắt ba ma trận đến một số cấp độ , như trong hình:X = U Σ ^ V T k < sX

X^=U^Σ^VT^
k<s

nhập mô tả hình ảnh ở đây

Trong pLSA, chọn một tập hợp các chủ đề cố định (biến tiềm ẩn) phép tính gần đúng của được tính là: trong đó ba ma trận là những ma trận tối đa hóa khả năng của mô hình.Z={z1,z2,...,zZ}X

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

Câu hỏi thực tế:

Tác giả nói rằng những quan hệ này tồn tại:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

và rằng sự khác biệt quan trọng giữa LSA và pLSA là hàm mục tiêu được sử dụng để xác định phân tách / xấp xỉ tối ưu.

Tôi không chắc anh ấy đúng, vì tôi nghĩ rằng hai ma trận phản ánh các khái niệm khác nhau: trong LSA, đó là một xấp xỉ số lần một thuật ngữ xuất hiện trong tài liệu và trong pLSA là (ước tính ) xác suất rằng một thuật ngữ xuất hiện trong tài liệu.X^

Bạn có thể giúp tôi làm rõ điểm này?

Hơn nữa, giả sử chúng tôi đã tính toán hai mô hình trên một kho văn bản, được cung cấp một tài liệu mới , trong LSA tôi sử dụng để tính xấp xỉ nó là: d

d^=d×V×VT
  1. Điều này luôn luôn hợp lệ?
  2. Tại sao tôi không nhận được kết quả có ý nghĩa khi áp dụng quy trình tương tự cho pLSA?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

Cảm ơn bạn.

Câu trả lời:


12

Để đơn giản, tôi đưa ra ở đây kết nối giữa LSA và nhân tố ma trận không âm (NMF), và sau đó chỉ ra cách sửa đổi đơn giản của hàm chi phí dẫn đến pLSA. Như đã nêu trước đó, LSA và pLSA đều là các phương thức nhân tố hóa theo nghĩa, cho đến khi bình thường hóa các hàng và cột, phân tách thứ hạng thấp của ma trận thuật ngữ tài liệu:

X=UΣD

sử dụng các ký hiệu trước đó. Đơn giản hơn, ma trận thuật ngữ tài liệu có thể được viết dưới dạng tích của hai ma trận:

X=ABT

trong đó và . Đối với LSA, sự tương ứng với công thức trước đó có được bằng cách đặt và . B M × s Một = U AN×sBM×s B=VA=UΣB=VΣ

Một cách dễ dàng để hiểu sự khác biệt giữa LSA và NMF là sử dụng giải thích hình học của chúng:

  • LSA là giải pháp của:

    minA,BXABTF2,
  • NMF- là giải pháp của: L2

    minA0,B0XABTF2,
  • NMF-KL tương đương với pLSA và là giải pháp của:

    minA0,B0KL(X||ABT).

nơi là Kullback-Leibler phân kỳ giữa ma trận và . Dễ dàng thấy rằng tất cả các vấn đề trên không có một giải pháp duy nhất, vì người ta có thể nhân với một số dương và chiaKL(X||Y)=ijxijlogxijyijXYABbằng cùng một số để có được cùng một giá trị mục tiêu. Do đó, - trong trường hợp LSA, mọi người thường chọn cơ sở trực giao được sắp xếp bằng cách giảm giá trị bản địa. Điều này được đưa ra bởi phân tách SVD và xác định giải pháp LSA, nhưng bất kỳ lựa chọn nào khác đều có thể vì nó không ảnh hưởng đến hầu hết các hoạt động (tương tự cosine, công thức làm mịn được đề cập ở trên, v.v.). - trong trường hợp của NMF, không thể phân tách trực giao, nhưng các hàng của thường bị ràng buộc thành một, bởi vì nó có một cách hiểu xác suất trực tiếp là . Ngoài ra, các hàng của được chuẩn hóa (nghĩa là tổng thành một), thì các hàng của phải tổng thành một, dẫn đến việc giải thích xác suấtAp(zk|di)XBp(fj|zk) . Có một sự khác biệt nhỏ với phiên bản pLSA được đưa ra trong câu hỏi trên bởi vì các cột của bị ràng buộc tổng hợp thành một, do đó các giá trị trong là , nhưng sự khác biệt chỉ là thay đổi tham số , vấn đề còn lại như cũ.AAp(di|zk)

Bây giờ, để trả lời câu hỏi ban đầu, có một điều gì đó tinh tế trong sự khác biệt giữa LSA và pLSA (và các thuật toán NMF khác): các ràng buộc không phủ định tạo ra một "hiệu ứng phân cụm" không hợp lệ trong trường hợp LSA cổ điển bởi vì Giá trị Singular Giải pháp phân rã là bất biến luân phiên. Các ràng buộc không phủ định bằng cách nào đó phá vỡ tính bất biến xoay vòng này và đưa ra các yếu tố với một số ý nghĩa ngữ nghĩa (chủ đề trong phân tích văn bản). Bài báo đầu tiên để giải thích nó là:

Donoho, David L. và Victoria C. Stodden. "Khi nào nhân tố ma trận không âm cho phép phân tách chính xác thành các phần?" Những tiến bộ trong hệ thống xử lý thông tin thần kinh 16: thủ tục tố tụng của hội nghị 2003. MIT Press, 2004. [link]

Mặt khác, mối quan hệ giữa PLSA và NMF được mô tả ở đây:

Đinh, Chris, Tao Li và Wei Peng. "Về sự tương đương giữa yếu tố ma trận không âm và lập chỉ mục ngữ nghĩa tiềm ẩn xác suất." Thống kê tính toán & phân tích dữ liệu 52.8 (2008): 3913-3927. [liên kết]

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.