Nhưng tôi không biết sự khác biệt giữa phân loại văn bản và mô hình chủ đề trong tài liệu
Text Classification
là một hình thức học tập có giám sát, do đó tập hợp các lớp có thể được biết / xác định trước và sẽ không thay đổi.
Topic Modeling
là một hình thức học tập không giám sát (gần giống với việc phân cụm), vì vậy tập hợp các chủ đề có thể là apriori chưa biết . Chúng được định nghĩa là một phần của việc tạo các mô hình chủ đề. Với thuật toán không xác định như LDA, bạn sẽ nhận được các chủ đề khác nhau mỗi khi bạn chạy thuật toán.
Text classification
thường liên quan đến các lớp loại trừ lẫn nhau - nghĩ về chúng như các thùng.
Nhưng nó không phải: được cung cấp đúng loại dữ liệu đầu vào được gắn nhãn, bạn có thể thiết lập một loạt các phân loại nhị phân không loại trừ lẫn nhau.
Topic modeling
nói chung không loại trừ lẫn nhau: cùng một tài liệu có thể có phân phối xác suất trải rộng trên nhiều chủ đề. Ngoài ra, cũng có các phương pháp mô hình chủ đề phân cấp.
Ngoài ra tôi có thể sử dụng mô hình chủ đề cho các tài liệu để xác định một chủ đề sau này không, tôi có thể sử dụng phân loại để phân loại văn bản bên trong tài liệu này không?
Nếu bạn đang hỏi liệu bạn có thể lấy tất cả các tài liệu được gán cho một chủ đề bằng thuật toán mô hình hóa chủ đề hay không và sau đó áp dụng trình phân loại cho bộ sưu tập đó, thì có, bạn chắc chắn có thể làm điều đó.
Tuy nhiên, tôi không chắc nó có ý nghĩa nhiều lắm: ở mức tối thiểu, bạn cần chọn ngưỡng phân phối xác suất chủ đề ở trên mà bạn sẽ bao gồm các tài liệu trong bộ sưu tập của mình (thường là 0,05-0,1).
Bạn có thể giải thích về trường hợp sử dụng của bạn?
Nhân tiện, có một hướng dẫn tuyệt vời về mô hình hóa chủ đề bằng thư viện MALLET cho Java có sẵn tại đây: Bắt đầu với Mô hình hóa chủ đề và MALLET