LDA có thể được sử dụng để phát hiện chủ đề của tài liệu A SINGLE không?
Có, trong đại diện cụ thể của 'chủ đề', và được cung cấp một tập tài liệu (thường liên quan).
LDA đại diện cho các chủ đề dưới dạng phân phối trên các từ và tài liệu là phân phối trên các chủ đề. Đó là, một mục đích rất lớn của LDA là đi đến sự thể hiện xác suất của mỗi tài liệu dưới dạng một tập hợp các chủ đề. Ví dụ, việc triển khai LDA trong gensim
có thể trả về đại diện này cho bất kỳ tài liệu nào.
Nhưng điều này phụ thuộc vào các tài liệu khác trong kho văn bản: Bất kỳ tài liệu nào được cung cấp sẽ có một đại diện khác nếu được phân tích như một phần của kho văn bản khác.
Điều đó thường không được coi là thiếu sót: Hầu hết các ứng dụng của LDA tập trung vào các tài liệu liên quan. Bài viết giới thiệu LDA áp dụng nó cho hai tập đoàn, một trong những bài báo của Associated Press và một bài tóm tắt bài báo khoa học. Bài đăng trên blog dễ tiếp cận của Edwin Chen áp dụng LDA cho một loạt email từ thời Sarah Palin là thống đốc Alaska.
Nếu ứng dụng của bạn yêu cầu tách tài liệu thành các lớp đã biết, loại trừ lẫn nhau, thì các chủ đề có nguồn gốc LDA có thể được sử dụng làm tính năng để phân loại. Thật vậy, bài báo ban đầu chỉ làm điều đó với AP corpus, với kết quả tốt.
Liên quan, cuộc biểu tình của Chen không sắp xếp các tài liệu thành các lớp độc quyền, nhưng các tài liệu của ông chủ yếu tập trung xác suất của họ vào các chủ đề LDA duy nhất. Như David Blei giải thích trong bài giảng video này , các linh mục Dirichlet có thể được chọn để ủng hộ sự thưa thớt. Đơn giản hơn, "một tài liệu bị phạt vì sử dụng nhiều chủ đề", như các slide của anh ấy đặt nó. Điều này có vẻ như LDA gần nhất có thể đến một chủ đề duy nhất, không bị giám sát, nhưng chắc chắn không đảm bảo mọi tài liệu sẽ được trình bày như vậy.