Tôi đang làm việc trên một tập dữ liệu với hơn 200.000 mẫu và khoảng 50 tính năng cho mỗi mẫu: 10 biến liên tục và ~ 40 biến khác là các biến phân loại (quốc gia, ngôn ngữ, lĩnh vực khoa học, v.v.). Đối với các biến phân loại này, bạn có ví dụ 150 quốc gia khác nhau, 50 ngôn ngữ, 50 lĩnh vực khoa học, v.v ...
Cho đến nay cách tiếp cận của tôi là:
Đối với mỗi biến phân loại có nhiều giá trị có thể, chỉ lấy một biến có hơn 10000 mẫu lấy giá trị này. Điều này giảm xuống 5-10 loại thay vì 150.
Xây dựng biến giả cho mỗi loại phân loại (nếu 10 quốc gia sau đó cho mỗi mẫu thêm một vectơ nhị phân có kích thước 10).
Cung cấp một trình phân loại rừng ngẫu nhiên (xác thực chéo các tham số, v.v.) với dữ liệu này.
Hiện tại với phương pháp này, tôi chỉ quản lý để có được độ chính xác 65% và tôi cảm thấy có thể làm được nhiều hơn thế. Đặc biệt là tôi không hài lòng với 1) vì tôi cảm thấy mình không nên tự ý loại bỏ "các giá trị ít liên quan nhất" theo số lượng mẫu mà họ có, bởi vì các giá trị ít đại diện này có thể phân biệt đối xử hơn. Mặt khác, RAM của tôi không đủ khả năng thêm 500 cột * 200000 hàng vào dữ liệu bằng cách giữ tất cả các giá trị có thể.
Bạn có gợi ý nào để đối phó với các biến phân loại này không?