Tôi hiện đang làm việc với một bộ dữ liệu với nhiều độ dài tài liệu - bất cứ nơi nào từ một từ đến một trang văn bản đầy đủ. Ngoài ra, cấu trúc ngữ pháp và cách sử dụng dấu câu thay đổi tùy theo từng tài liệu. Mục tiêu là phân loại các tài liệu đó thành một trong khoảng 10-15 loại. Tôi hiện đang sử dụng hồi quy sườn và hồi quy logistic cho tác vụ và CV cho các giá trị alpha của sườn núi. Các vectơ đặc trưng là ngrams tf-idf.
Gần đây tôi nhận thấy rằng các tài liệu dài hơn ít có khả năng được phân loại. Tại sao điều này có thể là trường hợp, và làm thế nào một người có thể "bình thường hóa" cho loại biến thể này? Như một câu hỏi tổng quát hơn, làm thế nào một người thường xử lý các tập dữ liệu đa dạng? Các tài liệu có nên được nhóm dựa trên các số liệu như độ dài tài liệu, sử dụng dấu câu, sự chặt chẽ về ngữ pháp, v.v. và sau đó được đưa qua các phân loại khác nhau không?