Câu hỏi của tôi hướng đến các kỹ thuật để xử lý dữ liệu không đầy đủ trong quá trình phân loại / đào tạo mô hình / phù hợp.
Chẳng hạn, trong một tập dữ liệu có vài trăm hàng, mỗi hàng có giả sử năm chiều và nhãn lớp là mục cuối cùng, hầu hết các điểm dữ liệu sẽ trông như thế này:
[0,74, 0,39, 0,14, 0,33, 0,34, 0]
Một số có thể trông giống như thế này:
[0,21, 0,68,?, 0,82, 0,58, 1]
Vì vậy, đó là những loại điểm dữ liệu là trọng tâm của Câu hỏi này.
Lý do ban đầu của tôi để hỏi câu hỏi này là một vấn đề trực tiếp trước mặt tôi; tuy nhiên, trước khi đăng Câu hỏi của tôi, tôi nghĩ rằng nó có thể hữu ích hơn nếu tôi đặt lại câu hỏi để câu trả lời sẽ hữu ích cho một phần lớn hơn của Cộng đồng.
Là một heuristic đơn giản, hãy phân chia các kỹ thuật xử lý dữ liệu này dựa trên thời gian trong quá trình xử lý chúng được sử dụng - trước khi nhập vào bộ phân loại hoặc trong khi (nghĩa là kỹ thuật nằm trong bộ phân loại).
Ví dụ tốt nhất tôi có thể nghĩ đến sau này là kỹ thuật 'phân nhánh ba chiều' thông minh được sử dụng trong Cây quyết định.
Không còn nghi ngờ gì nữa, danh mục trước đây lớn hơn nhiều. Các kỹ thuật tôi nhận thức được đều thuộc một trong các nhóm dưới đây.
Trong khi gần đây xem xét các ghi chú cá nhân của tôi về "xử lý dữ liệu bị thiếu" tôi nhận thấy rằng tôi có một danh sách các kỹ thuật khá ấn tượng. Tôi chỉ duy trì những lưu ý này để yên tâm chung và trong trường hợp một đồng nghiệp cấp dưới hỏi tôi cách xử lý dữ liệu bị thiếu. Trong thực tế, tôi không thực sự sử dụng bất kỳ trong số họ, ngoại trừ cái cuối cùng.
Imputation : một phiếu tự đánh giá rộng cho một tập hợp các kỹ thuật có mẫu số chung (tôi tin) là dữ liệu bị thiếu được cung cấp trực tiếp bởi cùng một tập dữ liệu - thay vì ước tính / dự đoán.
Tái cấu trúc : ước tính các điểm dữ liệu bị thiếu bằng cách sử dụng mạng liên kết tự động (chỉ là mạng thần kinh trong đó kích thước của các lớp đầu vào và đầu ra bằng nhau - nói cách khác, đầu ra có cùng kích thước với đầu vào); ý tưởng ở đây là đào tạo mạng này trên dữ liệu hoàn chỉnh, sau đó cung cấp cho nó các mẫu không hoàn chỉnh và đọc các giá trị còn thiếu từ các nút đầu ra.
Bootstrapping : (không cần tóm tắt tôi không nên nghĩ, vì nó được sử dụng ở nơi khác trong phân tích thống kê).
Từ chối : lặng lẽ xóa các điểm dữ liệu với các yếu tố bị thiếu / hỏng khỏi tập huấn luyện của bạn và giả vờ chúng không bao giờ tồn tại.
modern
kỹ thuật này không? Cảm ơn
mice
có một bài giới thiệu hay về JSS: jstatsoft.org/article/view/v045i03 . (Bạn sẽ thấy phần giới thiệu hữu ích, ngay cả khi bạn không sử dụng R.) Và gói R Amelia
có họa tiết đẹp đi kèm với gói. Hai gói này khác nhau về chi tiết, nhưng cả hai đều sử dụng nhiều lần cắt bỏ.