Sử dụng các từ chủ đề được tạo bởi LDA để thể hiện một tài liệu


8

Tôi muốn phân loại tài liệu bằng cách biểu diễn mỗi tài liệu dưới dạng một tập hợp các tính năng. Tôi biết rằng có nhiều cách: BOW, TFIDF, ...

Tôi muốn sử dụng Phân bổ Dirichlet tiềm ẩn (LDA) để trích xuất các từ khóa chủ đề của tài liệu MACHI SINGLE. tài liệu được đại diện bởi những từ chủ đề này. Nhưng tôi không biết liệu nó có hợp lý không vì theo tôi, LDA thường được sử dụng để trích xuất các từ chủ đề được chia sẻ bởi A BUNCH OF.

LDA có thể được sử dụng để phát hiện chủ đề của tài liệu A SINGLE không?

Câu trả lời:


13

LDA có thể được sử dụng để phát hiện chủ đề của tài liệu A SINGLE không?

Có, trong đại diện cụ thể của 'chủ đề', và được cung cấp một tập tài liệu (thường liên quan).

LDA đại diện cho các chủ đề dưới dạng phân phối trên các từ và tài liệu là phân phối trên các chủ đề. Đó là, một mục đích rất lớn của LDA là đi đến sự thể hiện xác suất của mỗi tài liệu dưới dạng một tập hợp các chủ đề. Ví dụ, việc triển khai LDA trong gensimcó thể trả về đại diện này cho bất kỳ tài liệu nào.

Nhưng điều này phụ thuộc vào các tài liệu khác trong kho văn bản: Bất kỳ tài liệu nào được cung cấp sẽ có một đại diện khác nếu được phân tích như một phần của kho văn bản khác.

Điều đó thường không được coi là thiếu sót: Hầu hết các ứng dụng của LDA tập trung vào các tài liệu liên quan. Bài viết giới thiệu LDA áp dụng nó cho hai tập đoàn, một trong những bài báo của Associated Press và một bài tóm tắt bài báo khoa học. Bài đăng trên blog dễ tiếp cận của Edwin Chen áp dụng LDA cho một loạt email từ thời Sarah Palin là thống đốc Alaska.

Nếu ứng dụng của bạn yêu cầu tách tài liệu thành các lớp đã biết, loại trừ lẫn nhau, thì các chủ đề có nguồn gốc LDA có thể được sử dụng làm tính năng để phân loại. Thật vậy, bài báo ban đầu chỉ làm điều đó với AP corpus, với kết quả tốt.

Liên quan, cuộc biểu tình của Chen không sắp xếp các tài liệu thành các lớp độc quyền, nhưng các tài liệu của ông chủ yếu tập trung xác suất của họ vào các chủ đề LDA duy nhất. Như David Blei giải thích trong bài giảng video này , các linh mục Dirichlet có thể được chọn để ủng hộ sự thưa thớt. Đơn giản hơn, "một tài liệu bị phạt vì sử dụng nhiều chủ đề", như các slide của anh ấy đặt nó. Điều này có vẻ như LDA gần nhất có thể đến một chủ đề duy nhất, không bị giám sát, nhưng chắc chắn không đảm bảo mọi tài liệu sẽ được trình bày như vậy.


Cảm ơn bạn đã trả lời. Tôi có thể nhập một tài liệu duy nhất, thay vì một bộ tài liệu vào LDA và sử dụng các từ đầu ra làm chủ đề của tài liệu không?
Munichong

Bằng cách "nhập một tài liệu duy nhất", bạn có nghĩa là "sử dụng một bộ huấn luyện bao gồm một tài liệu duy nhất"? Hoặc, "trích xuất các chủ đề từ một tài liệu ngoài mẫu đơn bằng cách sử dụng một mô hình được đào tạo"?
Sean Easter

Tôi có nghĩa là "sử dụng một tập huấn luyện bao gồm một tài liệu duy nhất" và chỉ định số lượng chủ đề mục tiêu cho 1, nghĩa là trích xuất một chủ đề (một bộ từ) từ một tài liệu đào tạo duy nhất.
Munichong

Tôi chưa bao giờ thử, vì vậy tôi không thể xác nhận một cách tích cực cách thức thực hiện sẽ xử lý đầu vào đó. Nhưng sử dụng một tài liệu duy nhất và một chủ đề duy nhất sẽ thách thức một số giả định chung chung của mô hình. Về cơ bản, bạn sẽ giả sử từng từ trong tài liệu được rút ra từ một phân phối đa phương thức duy nhất; thông số sau cho tham số của nó sẽ ít hơn số lượng từ được chuẩn hóa trong tài liệu. Tất cả điều này để nói rằng tôi đấu tranh để xem làm thế nào điều này có thể tạo ra đầu ra có ý nghĩa. Nó giống như việc tính toán tf-idf trên một kho dữ liệu của một người: Thống kê dựa trên các đặc điểm của kho văn bản rộng hơn.
Sean Easter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.