Vấn đề tôi đang giải quyết là phân loại các văn bản ngắn thành nhiều lớp. Cách tiếp cận hiện tại của tôi là sử dụng tần số có trọng số tf-idf và tìm hiểu một trình phân loại tuyến tính đơn giản (hồi quy logistic). Điều này hoạt động khá tốt (khoảng 90% macro F-1 trên bộ thử nghiệm, gần 100% trên bộ huấn luyện). Một vấn đề lớn là những từ chưa thấy / n-gram.
Tôi đang cố gắng cải thiện trình phân loại bằng cách thêm các tính năng khác, ví dụ: một vectơ có kích thước cố định được tính bằng cách sử dụng các điểm tương đồng phân phối (như được tính bởi word2vec) hoặc các tính năng phân loại khác của các ví dụ. Ý tưởng của tôi là chỉ cần thêm các tính năng cho các tính năng đầu vào thưa thớt từ túi từ. Tuy nhiên, điều này dẫn đến hiệu suất kém hơn trong bài kiểm tra và đào tạo. Các tính năng bổ sung tự cung cấp khoảng 80% F-1 trên bộ thử nghiệm, vì vậy chúng không phải là rác. Mở rộng các tính năng cũng không giúp được gì. Suy nghĩ hiện tại của tôi là các loại tính năng này không kết hợp tốt với các tính năng từ (thưa thớt).
Vì vậy, câu hỏi là: giả sử các tính năng bổ sung cung cấp thông tin bổ sung, cách tốt nhất để kết hợp chúng là gì? Có thể đào tạo các trình phân loại riêng biệt và kết hợp chúng trong một số loại công việc chung (điều này có thể có nhược điểm là không thể có sự tương tác giữa các tính năng của các phân loại khác nhau)? Có những mô hình phức tạp hơn tôi nên xem xét?