Tôi đang cố gắng phát triển một mô hình dự đoán bằng cách sử dụng dữ liệu lâm sàng chiều cao bao gồm các giá trị trong phòng thí nghiệm. Không gian dữ liệu thưa thớt với 5k mẫu và 200 biến. Ý tưởng là xếp hạng các biến bằng phương pháp chọn tính năng (IG, RF, v.v.) và sử dụng các tính năng xếp hạng hàng đầu để phát triển mô hình dự đoán.
Mặc dù lựa chọn tính năng đang diễn ra tốt đẹp với cách tiếp cận Naïve Bayes, tôi hiện đang gặp vấn đề trong việc triển khai mô hình dự đoán do thiếu dữ liệu (NA) trong không gian biến của mình. Có thuật toán học máy nào có thể xử lý cẩn thận các mẫu có dữ liệu bị thiếu không?