Tập dữ liệu của tôi nhỏ (120 mẫu), tuy nhiên số lượng tính năng lớn thay đổi từ (1000-200.000). Mặc dù tôi đang thực hiện lựa chọn tính năng để chọn một tập hợp con các tính năng, nhưng nó vẫn có thể quá phù hợp.
Câu hỏi đầu tiên của tôi là, làm thế nào để SVM xử lý quá mức, nếu có.
Thứ hai, khi tôi nghiên cứu thêm về việc quá mức trong trường hợp phân loại, tôi đã đi đến kết luận rằng ngay cả các bộ dữ liệu với số lượng nhỏ các tính năng cũng có thể phù hợp. Nếu chúng ta không có các tính năng tương quan với nhãn lớp, thì quá mức sẽ xảy ra. Vì vậy, bây giờ tôi đang tự hỏi điểm phân loại tự động là gì nếu chúng ta không thể tìm thấy các tính năng phù hợp cho nhãn lớp. Trong trường hợp phân loại tài liệu, điều này có nghĩa là tự tạo ra một từ điển liên quan đến các nhãn liên quan đến nhãn, rất tốn thời gian. Tôi đoán những gì tôi đang cố gắng nói là, nếu không chọn thủ công các tính năng phù hợp thì rất khó để xây dựng một mô hình tổng quát?
Ngoài ra, nếu kết quả thử nghiệm không cho thấy kết quả thấp / không quá mức thì nó trở nên vô nghĩa. Có cách nào để đo lường nó?