Tôi đang làm việc trong một dự án ở R nơi tôi có khoảng 1200 email từ một công ty, hầu hết trong số đó được gắn nhãn lớp 1 hoặc lớp , là các loại yêu cầu. Khoảng 1000 email được dán nhãn lớp và 200 email được gắn nhãn lớp . Mục tiêu của tôi là sử dụng học tập có giám sát để xây dựng một mô hình sẽ phân loại email mới.
Nhưng, sau rất nhiều quá trình xử lý trước (phân tích cú pháp, xóa từ khóa, v.v.) và thử các thuật toán điển hình (SVM, cây quyết định, v.v.) trên ma trận thuật ngữ tài liệu, ma trận nhầm lẫn của tôi chứa nhiều dấu tích sai và phủ định sai, nhưng chỉ có một vài phủ định sai với SVM.
Tôi đang tự hỏi làm thế nào tôi có thể cải thiện kết quả của tôi? Tôi có cần sử dụng tính năng oversampling hoặc bi-gram không? Tôi đoán vấn đề là các chủ đề của hai loại thực sự gần gũi.