Sự khác biệt chính giữa dữ liệu thưa và dữ liệu bị thiếu là gì? Và nó ảnh hưởng đến việc học máy như thế nào? Cụ thể hơn, những gì ảnh hưởng đến dữ liệu thưa thớt và dữ liệu bị thiếu đối với các thuật toán phân loại và loại hồi quy (dự đoán số) loại thuật toán. Tôi đang nói về một tình huống, trong đó tỷ lệ phần trăm dữ liệu bị thiếu là đáng kể và chúng ta không thể bỏ các hàng chứa dữ liệu bị thiếu.