Tôi có một bộ dữ liệu khoảng 5000 tính năng. Đối với dữ liệu đó, lần đầu tiên tôi sử dụng kiểm tra Chi Square để lựa chọn tính năng; Sau đó, tôi nhận được khoảng 1500 biến thể hiện mối quan hệ quan trọng với biến trả lời.
Bây giờ tôi cần phải phù hợp với hồi quy logistic về điều đó. Tôi đang sử dụng gói glmulti cho R (gói glmulti cung cấp lựa chọn tập hợp con hiệu quả cho vlm) nhưng nó chỉ có thể sử dụng 30 tính năng một lúc, hiệu suất của nó giảm xuống vì số lượng hàng trong bộ dữ liệu của tôi là khoảng 20000.
Có cách tiếp cận hoặc kỹ thuật nào khác để giải quyết các vấn đề trên không? Nếu tôi đi theo phương pháp trên thì sẽ mất quá nhiều thời gian để phù hợp với mô hình.
sklearn
's LogisticRegression
và nó giải quyết một 4000 tính năng, 20.000 hàng vấn đề trong khoảng một phút trên máy tính xách tay của tôi.