Tôi có các tính năng thưa thớt mang tính dự đoán, tôi cũng có một số tính năng dày đặc cũng mang tính dự đoán. Tôi cần kết hợp các tính năng này với nhau để cải thiện hiệu suất tổng thể của trình phân loại.
Bây giờ, điều là khi tôi cố gắng kết hợp những thứ này lại với nhau, các tính năng dày đặc có xu hướng chiếm ưu thế hơn so với các tính năng thưa thớt, do đó chỉ cải thiện 1% trong AUC so với mô hình chỉ có các tính năng dày đặc.
Có ai đó gặp phải vấn đề tương tự? Thực sự đánh giá cao các đầu vào, loại bị mắc kẹt. Tôi đã thử rất nhiều phân loại khác nhau, kết hợp các phân loại, biến đổi tính năng và xử lý với các thuật toán khác nhau.
Xin được cảm ơn trước về sự giúp đỡ.
Chỉnh sửa :
Tôi đã thử các đề xuất được đưa ra trong các ý kiến. Những gì tôi đã quan sát là, đối với gần 45% dữ liệu, các tính năng thưa thớt hoạt động rất tốt, tôi nhận được AUC khoảng 0,9 chỉ với các tính năng thưa thớt, nhưng đối với các tính năng dày đặc còn lại hoạt động tốt với AUC khoảng 0,75. Tôi đã cố gắng tách các bộ dữ liệu này, nhưng tôi nhận được AUC là 0,6, vì vậy, tôi không thể đơn giản đào tạo một mô hình và quyết định sử dụng các tính năng nào.
Về đoạn mã, tôi đã thử rất nhiều thứ, mà tôi không chắc chính xác những gì để chia sẻ :(