Tôi chưa bao giờ thực sự tìm thấy bất kỳ văn bản hay ví dụ hay nào về cách xử lý dữ liệu 'không tồn tại' cho các đầu vào cho bất kỳ loại phân loại nào. Tôi đã đọc rất nhiều về dữ liệu bị thiếu nhưng những gì có thể được thực hiện về dữ liệu không thể hoặc không tồn tại liên quan đến các đầu vào đa biến. Tôi hiểu đây là một câu hỏi rất phức tạp và sẽ thay đổi tùy thuộc vào phương pháp đào tạo được sử dụng ...
Ví dụ: nếu cố gắng dự đoán laptime cho một số vận động viên với dữ liệu chính xác tốt. Trong số nhiều đầu vào, các biến có thể có trong số nhiều là:
- Biến đầu vào - Người chạy lần đầu (Y / N)
- Biến đầu vào - Thời gian trễ trước đó (0 - 500 giây)
- Biến đầu vào - Tuổi
- Biến đầu vào - Chiều cao. . . nhiều biến đầu vào hơn, v.v.
& Dự đoán đầu ra - Laptime dự đoán (0 - 500 giây)
Một "biến thiếu" cho '2.Preingly laptime' có thể được tính toán theo nhiều cách nhưng '1. Người chạy lần đầu 'sẽ luôn bằng N. Nhưng đối với 'DỮ LIỆU TUYỆT VỜI' cho người chạy lần đầu (trong đó '1. Người chạy lần đầu' = Y) tôi nên đưa ra giá trị / cách xử lý nào cho '2. Laptime trước '?
Ví dụ: gán '2. Laptime trước đó là -99 hoặc 0 có thể làm phân phối đáng kể và làm cho nó trông giống như một người chạy mới đã hoạt động tốt.
Các phương pháp đào tạo hiện tại của tôi đã sử dụng hồi quy Logistic, cây SVM, NN & Quyết định