sự khác biệt giữa phân loại văn bản và mô hình chủ đề là gì?


20

Tôi biết sự khác biệt giữa phân cụm và phân loại trong học máy, nhưng tôi không hiểu sự khác biệt giữa phân loại văn bản và mô hình chủ đề cho các tài liệu. Tôi có thể sử dụng mô hình chủ đề trên các tài liệu để xác định một chủ đề không? Tôi có thể sử dụng các phương pháp phân loại để phân loại văn bản bên trong các tài liệu này không?

Câu trả lời:


28

Phân loại văn bản

Tôi cung cấp cho bạn một loạt các tài liệu, mỗi tài liệu có một nhãn đính kèm. Tôi yêu cầu bạn tìm hiểu lý do tại sao bạn nghĩ rằng nội dung của các tài liệu đã được đưa ra các nhãn này dựa trên các từ của họ. Sau đó, tôi đưa cho bạn các tài liệu mới và hỏi xem bạn nghĩ nhãn của mỗi loại phải là gì. Các nhãn có ý nghĩa với tôi, không nhất thiết với bạn.

Mô hình chủ đề

Tôi cung cấp cho bạn một loạt các tài liệu, không có nhãn. Tôi yêu cầu bạn giải thích lý do tại sao các tài liệu có những từ họ làm bằng cách xác định một số chủ đề mà mỗi chủ đề là "về". Bạn cho tôi biết các chủ đề, bằng cách cho tôi biết mỗi chủ đề có bao nhiêu trong mỗi tài liệu và tôi quyết định chủ đề "có nghĩa là gì" nếu có bất cứ điều gì.

Bạn sẽ phải làm rõ những gì bạn với tôi bằng cách "xác định một chủ đề" hoặc "phân loại văn bản".


10

Nhưng tôi không biết sự khác biệt giữa phân loại văn bản và mô hình chủ đề trong tài liệu

Text Classificationlà một hình thức học tập có giám sát, do đó tập hợp các lớp có thể được biết / xác định trước và sẽ không thay đổi.

Topic Modelinglà một hình thức học tập không giám sát (gần giống với việc phân cụm), vì vậy tập hợp các chủ đề có thể là apriori chưa biết . Chúng được định nghĩa là một phần của việc tạo các mô hình chủ đề. Với thuật toán không xác định như LDA, bạn sẽ nhận được các chủ đề khác nhau mỗi khi bạn chạy thuật toán.

Text classificationthường liên quan đến các lớp loại trừ lẫn nhau - nghĩ về chúng như các thùng.
Nhưng nó không phải: được cung cấp đúng loại dữ liệu đầu vào được gắn nhãn, bạn có thể thiết lập một loạt các phân loại nhị phân không loại trừ lẫn nhau.

Topic modelingnói chung không loại trừ lẫn nhau: cùng một tài liệu có thể có phân phối xác suất trải rộng trên nhiều chủ đề. Ngoài ra, cũng có các phương pháp mô hình chủ đề phân cấp.

Ngoài ra tôi có thể sử dụng mô hình chủ đề cho các tài liệu để xác định một chủ đề sau này không, tôi có thể sử dụng phân loại để phân loại văn bản bên trong tài liệu này không?

Nếu bạn đang hỏi liệu bạn có thể lấy tất cả các tài liệu được gán cho một chủ đề bằng thuật toán mô hình hóa chủ đề hay không và sau đó áp dụng trình phân loại cho bộ sưu tập đó, thì có, bạn chắc chắn có thể làm điều đó.

Tuy nhiên, tôi không chắc nó có ý nghĩa nhiều lắm: ở mức tối thiểu, bạn cần chọn ngưỡng phân phối xác suất chủ đề ở trên mà bạn sẽ bao gồm các tài liệu trong bộ sưu tập của mình (thường là 0,05-0,1).

Bạn có thể giải thích về trường hợp sử dụng của bạn?

Nhân tiện, có một hướng dẫn tuyệt vời về mô hình hóa chủ đề bằng thư viện MALLET cho Java có sẵn tại đây: Bắt đầu với Mô hình hóa chủ đề và MALLET


4

Mô hình chủ đề thường không được giám sát . Cũng có "mô hình chủ đề được giám sát"; nhưng ngay cả sau đó họ cố gắng mô hình hóa các chủ đề trong một lớp .

Ví dụ: bạn có thể có một lớp "bóng đá", nhưng có thể có các chủ đề trong lớp này liên quan đến các trận đấu hoặc đội cụ thể.

Thách thức với các chủ đề là chúng thay đổi theo thời gian; xem xét các ví dụ phù hợp ở trên. Những chủ đề như vậy có thể xuất hiện, và biến mất một lần nữa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.