Mô hình chủ đề và phương pháp đồng từ


26

Các mô hình chủ đề phổ biến như LDA thường phân cụm các từ có xu hướng cùng xuất hiện trong cùng một chủ đề (cụm).

Sự khác biệt chính giữa các mô hình chủ đề như vậy và các phương pháp phân cụm dựa trên sự xuất hiện đơn giản khác như PMI là gì? (PMI là viết tắt của Thông tin lẫn nhau theo chiều, và nó được sử dụng để xác định các từ cùng xuất hiện với một từ đã cho.)

Câu trả lời:


32

Gần đây, một cơ thể khổng lồ của văn học thảo luận về cách trích xuất thông tin từ văn bản viết đã phát triển. Do đó tôi sẽ chỉ mô tả bốn cột mốc / mô hình phổ biến và ưu điểm / nhược điểm của chúng và do đó làm nổi bật (một số) sự khác biệt chính (hoặc ít nhất là những gì tôi nghĩ là sự khác biệt chính / quan trọng nhất).

Bạn đề cập đến cách tiếp cận "dễ nhất", đó sẽ là phân cụm các tài liệu bằng cách khớp chúng với một truy vấn được xác định trước về các thuật ngữ (như trong PMI). Tuy nhiên, các phương thức kết hợp từ vựng này có thể không chính xác do đa nghĩa (nhiều nghĩa) và từ đồng nghĩa (nhiều từ có nghĩa tương tự) của các thuật ngữ đơn.

Như một biện pháp khắc phục, lập chỉ mục ngữ nghĩa tiềm ẩn ( LSI ) cố gắng khắc phục điều này bằng cách ánh xạ các thuật ngữ và tài liệu vào một không gian ngữ nghĩa tiềm ẩn thông qua phân tách giá trị số ít. Các kết quả LSI là các chỉ số có ý nghĩa mạnh mẽ hơn các thuật ngữ riêng lẻ. Tuy nhiên, một nhược điểm của LSI là nó thiếu về nền tảng xác suất vững chắc.

Điều này đã được giải quyết một phần nhờ phát minh LSI xác suất ( pLSI ). Trong các mô hình pLSI, mỗi từ trong tài liệu được rút ra từ mô hình hỗn hợp được chỉ định thông qua các biến ngẫu nhiên đa phương thức (cũng cho phép các lần xuất hiện bậc cao hơn như @sviatoslav hong đã đề cập). Đây là một bước tiến quan trọng trong mô hình văn bản xác suất, nhưng không đầy đủ theo nghĩa là nó không cung cấp cấu trúc xác suất ở cấp độ tài liệu.

Phân bổ Dirichlet tiềm ẩn ( LDA ) làm giảm bớt điều này và là mô hình xác suất đầy đủ đầu tiên cho phân cụm văn bản. Blei và cộng sự. (2003) cho thấy pLSI là mô hình LDA ước tính tối đa a-posteriori theo Dirichlet thống nhất trước đó.

Lưu ý rằng các mô hình được đề cập ở trên (LSI, pLSI, LDA) có điểm chung là chúng dựa trên giả định túi của các từ - nghĩa là trong một tài liệu, các từ có thể trao đổi được, tức là thứ tự các từ trong tài liệu có thể bị bỏ bê. Giả định về khả năng trao đổi này đưa ra một lời biện minh cho LDA hơn các cách tiếp cận khác: Giả sử rằng không chỉ các từ trong tài liệu có thể trao đổi, mà cả các tài liệu, nghĩa là, thứ tự các tài liệu trong một kho văn bản có thể bị bỏ qua, định lý của De Finettinói rằng bất kỳ tập hợp các biến ngẫu nhiên có thể trao đổi đều có biểu diễn dưới dạng phân phối hỗn hợp. Do đó, nếu khả năng trao đổi cho các tài liệu và các từ trong tài liệu được giả sử, một mô hình hỗn hợp cho cả hai là cần thiết. Chính xác thì đây là điều mà LDA thường đạt được nhưng PMI hoặc LSI thì không (và thậm chí pLSI không đẹp như LDA).


2
Cảm ơn 1/2! Rất rõ ràng. Hãy để tôi kiểm tra xem tôi có đúng không: Trong LSI, các tài liệu được hình thành bởi một hỗn hợp các từ (không có khái niệm về chủ đề) và các từ và tài liệu được ánh xạ tới một không gian ngữ nghĩa chiều thấp hơn bằng cách sử dụng SVD. Vì các từ có ý nghĩa ngữ nghĩa tương tự được ánh xạ gần hơn, nó có thể xử lý từ đồng nghĩa nhưng có vấn đề với polisemy. pLSI giải quyết vấn đề chính trị bằng cách đưa ra khái niệm chủ đề. Trong pLSI, các từ được rút ra từ một phân phối đa dạng các từ (chủ đề), cùng một từ có thể thuộc về một số chủ đề và một tài liệu có nhiều chủ đề, mặc dù điều này không được mô hình hóa rõ ràng.
kanzen_master

2
Tôi nghĩ nói chung bạn hiểu đúng. Một số chỉnh sửa nhỏ hơn: LSI được coi là hoạt động tốt với cả polysemy và synomy. pLSI về cơ bản là một công thức để đạt được những gì LSI phấn đấu với các công cụ phân tích / mixturemodels tiềm ẩn và xác suất thay vì chỉ đại số tuyến tính. LDA so với pLSI là một mô hình tổng quát hoàn toàn bằng cách chỉ định phân phối chủ đề cho mỗi tài liệu.
Momo

1
Về quan điểm của bạn về quá mức và dự đoán, tôi không đủ hiểu biết cho một tuyên bố đủ điều kiện. Nhưng, với tất cả giá trị của nó, tôi không hiểu tại sao LDA nên ít bị quá mức hơn so với pLSI (vì về cơ bản LDA chỉ thêm một mô hình pLSI trước). Cả hai đều không có hiệu chỉnh trong chế độ quá mức hoặc tương tự. "Dự đoán" các tài liệu mới thực sự có thể dễ dàng hoặc khả thi hơn với một mô hình hoàn toàn rộng rãi như LDA, xem số liệu thống kê.stackexchange.com/questions/9315/. Nhưng tôi sẽ thấy LDA là một mô hình mô tả, không được giám sát.
Momo

1
Cảm ơn một lần nữa! Chỉ có 2 câu hỏi cuối cùng: (1) Về polysemy, trong pdf này, cuối trang 3 Hoffman nói rằng một trong những khác biệt của PLSI so với LSI là polysemy, vì cùng một từ có thể thuộc về các phân phối từ (chủ đề) khác nhau; đó là lý do tại sao tôi nghĩ rằng LSI không hoạt động với polysemy. (2) Liên quan đến việc quá mức, blog này nói rằng sự gia tăng tuyến tính của các tham số cho thấy rằng mô hình có xu hướng bị quá mức. Bạn nghĩ sao ?
kanzen_master

2
Không vấn đề gì. Bạn biết nhiều về những điều này rồi, vì vậy tôi cũng học những thứ đó. quảng cáo (1) Vâng, như thường lệ, điều này phụ thuộc vào: LSI có thể xử lý đa năng do sự kết hợp tuyến tính của các thuật ngữ như được thực hiện trong PCA. Nó làm điều này tốt hơn với các từ đồng nghĩa, nhưng ở một mức độ nhất định cũng với polysemy. Về cơ bản các từ đa nghĩa tương tự được thêm vào các thành phần của các từ có chung một nghĩa. Tuy nhiên, nó hoạt động kém hơn nhiều so với pLSI vì mỗi lần xuất hiện của một từ được biểu diễn dưới dạng một điểm trong không gian. Do đó, đại diện từ là trung bình của tất cả các ý nghĩa khác nhau của từ trong kho.
Momo

5

LDA có thể nắm bắt thứ tự cao hơn các lần xuất hiện của các điều khoản (do giả định của mỗi chủ đề là phân phối đa phương thức theo các điều khoản), điều này là không thể chỉ bằng cách tính PMI giữa các điều khoản.


4
Cảm ơn! Định nghĩa của "sự xuất hiện cao của các sự cố" là gì?
kanzen_master

5

Tôi có thể trễ 3 năm nhưng tôi muốn theo dõi câu hỏi của bạn về ví dụ về "sự xuất hiện cao của các sự cố".

Về cơ bản, nếu thuật ngữ t1 cùng xảy ra với thuật ngữ t2 cùng xảy ra với thuật ngữ t3, thì thuật ngữ t1 là sự xuất hiện của bậc 2 với thuật ngữ t3. Bạn có thể đi đến thứ tự cao hơn nếu bạn muốn nhưng cuối cùng, bạn sẽ kiểm soát hai từ tương tự như thế nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.