Tôi có một bộ dữ liệu với 330 mẫu và 27 tính năng cho mỗi mẫu, với một vấn đề về lớp nhị phân cho Hồi quy logistic.
Theo "quy tắc nếu mười", tôi cần ít nhất 10 sự kiện cho mỗi tính năng được đưa vào. Mặc dù vậy, tôi có một bộ dữ liệu không cân bằng, với 20% o lớp dương và 80% lớp âm.
Điều đó mang lại cho tôi chỉ 70 sự kiện, cho phép chỉ có khoảng 7/8 tính năng được đưa vào mô hình Logistic.
Tôi muốn đánh giá tất cả các tính năng như dự đoán, tôi không muốn chọn bất kỳ tính năng nào.
Vì vậy, những gì bạn sẽ đề nghị? Tôi có nên thực hiện tất cả 7 tính năng kết hợp? Tôi có nên đánh giá từng tính năng một mình với một mô hình kết hợp và sau đó chỉ chọn những tính năng tốt nhất cho một mô hình cuối cùng không?
Tôi cũng tò mò về việc xử lý các tính năng phân loại và liên tục, tôi có thể trộn chúng không? Nếu tôi có phân loại [0-1] và liên tục [0-100], tôi có nên bình thường hóa không?
Tôi hiện đang làm việc với Python.
Cảm ơn sự giúp đỡ của bạn!