Đối với các mô hình tuyến tính (như hồi quy tuyến tính, hồi quy logistic, v.v.), kỹ thuật tính năng là một bước quan trọng để cải thiện hiệu suất của các mô hình. Câu hỏi của tôi là có vấn đề gì không nếu chúng ta thực hiện bất kỳ kỹ thuật tính năng nào trong khi sử dụng rừng ngẫu nhiên hoặc tăng cường độ dốc?
Cho rằng những mô hình này không phải là mô hình học tập sâu. nhưng có vẻ như một số phương pháp kỹ thuật tính năng không thực sự cải thiện mô hình. Ví dụ: Tôi đang thực hiện một vấn đề phân loại nhị phân, chứa khoảng 200 tính năng và 20 trong số đó là các tính năng phân loại. Tôi đã làm như sau:
điểm chuẩn: chạy phân loại rừng ngẫu nhiên trực tiếp trên dữ liệu gốc. Tôi đã nhận được AUC khoảng 0,93, độ chính xác, thu hồi và điểm F là khoảng 0,95 Tôi đã nói xung quanh, bởi vì xác thực statifiedK Fold được áp dụng và có các biến thể rất nhỏ cho kết quả
Tôi đã giảm kích thước tính năng bằng cách thực hiện kiểm tra bình phương và kiểm tra ANOVA f1, chạy mô hình. kết quả gần như giống hệt nhau: AUC khoảng 0,93, độ chính xác, thu hồi và điểm F là khoảng 0,95
sau đó tôi nhấn một lần tất cả các tính năng phân loại và sau đó chạy lại mô hình, kết quả vẫn gần như giống nhau: AUC khoảng 0,93, độ chính xác, thu hồi và điểm F là khoảng 0,95
Sau đó, SVD rút ngắn được áp dụng để giảm các tính năng hơn nữa và giữ lại mô hình, kết quả vẫn không thay đổi ...
cuối cùng tôi đã thêm thuật ngữ đa thức, thuật ngữ chéo của các tính năng còn lại. kết quả vẫn không thay đổi ...
Có gợi ý nào không? cảm ơn bạn.