Tôi hiện đang làm việc trên một mô hình hồi quy logistic cho bộ gen. Một trong những trường đầu vào tôi muốn đưa vào dưới dạng đồng biến là genes
. Có khoảng 24.000 gen được biết đến. Có nhiều tính năng với mức độ biến đổi này trong sinh học tính toán và cần hàng trăm ngàn mẫu.
- Nếu tôi là
LabelEncoder()
những gen 24K - và sau đó
OneHotEncoder()
họ ...
Là 24.000 cột sẽ làm cho thời gian đào tạo máy ảnh của tôi không hợp lý cho CPU i7 lõi tứ 2,2 GHz?
Nếu vậy, có một cách tiếp cận khác để mã hóa mà tôi có thể thực hiện với điều này?
Tôi có nên bằng cách nào đó cố gắng dành một lớp mô hình của tôi cho tính năng này?
Điều này có nghĩa là tôi cần các nút đầu vào 24K?