Tôi có một cơ sở dữ liệu từ ứng dụng Facebook của mình và tôi đang cố gắng sử dụng máy học để ước tính tuổi của người dùng dựa trên những trang Facebook họ thích.
Có ba đặc điểm quan trọng của cơ sở dữ liệu của tôi:
phân phối độ tuổi trong tập huấn luyện của tôi (tổng cộng 12 nghìn người dùng) bị lệch về phía người dùng trẻ (ví dụ: tôi có 1157 người dùng ở độ tuổi 27 và 23 người dùng ở độ tuổi 65);
nhiều trang web có không quá 5 lượt thích (tôi đã lọc ra các trang FB có ít hơn 5 lượt thích).
có nhiều tính năng hơn mẫu.
Vì vậy, câu hỏi của tôi là: bạn muốn đề xuất chiến lược gì để chuẩn bị dữ liệu để phân tích sâu hơn? Tôi có nên thực hiện một số loại giảm kích thước? Phương pháp ML nào sẽ thích hợp nhất để sử dụng trong trường hợp này?
Tôi chủ yếu sử dụng Python, vì vậy gợi ý dành riêng cho Python sẽ được đánh giá rất cao.