Gần đây, một cơ thể khổng lồ của văn học thảo luận về cách trích xuất thông tin từ văn bản viết đã phát triển. Do đó tôi sẽ chỉ mô tả bốn cột mốc / mô hình phổ biến và ưu điểm / nhược điểm của chúng và do đó làm nổi bật (một số) sự khác biệt chính (hoặc ít nhất là những gì tôi nghĩ là sự khác biệt chính / quan trọng nhất).
Bạn đề cập đến cách tiếp cận "dễ nhất", đó sẽ là phân cụm các tài liệu bằng cách khớp chúng với một truy vấn được xác định trước về các thuật ngữ (như trong PMI). Tuy nhiên, các phương thức kết hợp từ vựng này có thể không chính xác do đa nghĩa (nhiều nghĩa) và từ đồng nghĩa (nhiều từ có nghĩa tương tự) của các thuật ngữ đơn.
Như một biện pháp khắc phục, lập chỉ mục ngữ nghĩa tiềm ẩn ( LSI ) cố gắng khắc phục điều này bằng cách ánh xạ các thuật ngữ và tài liệu vào một không gian ngữ nghĩa tiềm ẩn thông qua phân tách giá trị số ít. Các kết quả LSI là các chỉ số có ý nghĩa mạnh mẽ hơn các thuật ngữ riêng lẻ. Tuy nhiên, một nhược điểm của LSI là nó thiếu về nền tảng xác suất vững chắc.
Điều này đã được giải quyết một phần nhờ phát minh LSI xác suất ( pLSI ). Trong các mô hình pLSI, mỗi từ trong tài liệu được rút ra từ mô hình hỗn hợp được chỉ định thông qua các biến ngẫu nhiên đa phương thức (cũng cho phép các lần xuất hiện bậc cao hơn như @sviatoslav hong đã đề cập). Đây là một bước tiến quan trọng trong mô hình văn bản xác suất, nhưng không đầy đủ theo nghĩa là nó không cung cấp cấu trúc xác suất ở cấp độ tài liệu.
Phân bổ Dirichlet tiềm ẩn ( LDA ) làm giảm bớt điều này và là mô hình xác suất đầy đủ đầu tiên cho phân cụm văn bản. Blei và cộng sự. (2003) cho thấy pLSI là mô hình LDA ước tính tối đa a-posteriori theo Dirichlet thống nhất trước đó.
Lưu ý rằng các mô hình được đề cập ở trên (LSI, pLSI, LDA) có điểm chung là chúng dựa trên giả định túi của các từ - nghĩa là trong một tài liệu, các từ có thể trao đổi được, tức là thứ tự các từ trong tài liệu có thể bị bỏ bê. Giả định về khả năng trao đổi này đưa ra một lời biện minh cho LDA hơn các cách tiếp cận khác: Giả sử rằng không chỉ các từ trong tài liệu có thể trao đổi, mà cả các tài liệu, nghĩa là, thứ tự các tài liệu trong một kho văn bản có thể bị bỏ qua, định lý của De Finettinói rằng bất kỳ tập hợp các biến ngẫu nhiên có thể trao đổi đều có biểu diễn dưới dạng phân phối hỗn hợp. Do đó, nếu khả năng trao đổi cho các tài liệu và các từ trong tài liệu được giả sử, một mô hình hỗn hợp cho cả hai là cần thiết. Chính xác thì đây là điều mà LDA thường đạt được nhưng PMI hoặc LSI thì không (và thậm chí pLSI không đẹp như LDA).