Các thuật toán học máy để xử lý dữ liệu bị thiếu


25

Tôi đang cố gắng phát triển một mô hình dự đoán bằng cách sử dụng dữ liệu lâm sàng chiều cao bao gồm các giá trị trong phòng thí nghiệm. Không gian dữ liệu thưa thớt với 5k mẫu và 200 biến. Ý tưởng là xếp hạng các biến bằng phương pháp chọn tính năng (IG, RF, v.v.) và sử dụng các tính năng xếp hạng hàng đầu để phát triển mô hình dự đoán.

Mặc dù lựa chọn tính năng đang diễn ra tốt đẹp với cách tiếp cận Naïve Bayes, tôi hiện đang gặp vấn đề trong việc triển khai mô hình dự đoán do thiếu dữ liệu (NA) trong không gian biến của mình. Có thuật toán học máy nào có thể xử lý cẩn thận các mẫu có dữ liệu bị thiếu không?


1
Sự tồn tại của các câu trả lời được nêu lên ngụ ý với tôi rằng câu hỏi này không quá rộng để có thể trả lời được. Tôi đang bỏ phiếu để bỏ ngỏ.
gung - Phục hồi Monica

Câu trả lời:


15

Nó phụ thuộc vào mô hình bạn sử dụng. Nếu bạn đang sử dụng một số mô hình tổng quát, thì có một cách nguyên tắc để xử lý các giá trị còn thiếu (). Ví dụ, trong các mô hình như Naive Bayes hoặc Gaussian Processes, bạn sẽ tích hợp các biến còn thiếu và chọn tùy chọn tốt nhất với các biến còn lại.

Đối với các mô hình phân biệt đối xử thì công phu hơn, vì điều đó là không thể. Có một số cách tiếp cận. Gharamani và Jordan mô tả một cách tiếp cận nguyên tắc, trong đó các giá trị bị thiếu được xử lý như các biến ẩn và một biến thể của thuật toán EM được sử dụng để ước tính chúng. Theo cách tương tự, Smola et al. mô tả một biến thể của thuật toán SVM giải quyết vấn đề một cách rõ ràng.

Lưu ý rằng thường được khuyến nghị thay thế các giá trị bị thiếu bằng giá trị trung bình của biến. Đây là vấn đề, như được mô tả trong bài báo đầu tiên. Đôi khi, tôi đã bắt gặp các bài báo thực hiện hồi quy các biến để ước tính các giá trị bị thiếu, nhưng tôi không thể nói liệu điều đó có áp dụng cho trường hợp của bạn hay không.


2
người ta thường khuyên thay thế các giá trị còn thiếu bằng giá trị trung bình của biến . Bạn có thể vui lòng chỉ vào nguồn?
Sergey Bushmanov

1
@juampa Tại sao bạn cho rằng không thể tích hợp các biến bị thiếu trong các mô hình phân biệt đối xử? Chúng tôi làm điều này cho hồi quy logistic mọi lúc. Trong thực tế, nó có thể được hiển thị bằng với nhiều lần cắt cụt.
AdamO

1
@SergeyBushmanov Tôi với bạn trong sự nhầm lẫn của bạn ở đây. Người ta không thường khuyến khích sử dụng (duy nhất) imputation trung bình vì nó dẫn đến sai lệch trong một số trường hợp và số liệu xác nhận anticonservative trong các trường hợp khác.
AdamO


2

Hãy thử sử dụng hàng xóm gần nhất để loại bỏ dữ liệu bị thiếu.

Ngoài ra, gói Caret có giao diện với nhiều thuật toán khác nhau và tất cả chúng đều đi kèm với các phương thức dự đoán trong R có thể được sử dụng để dự đoán dữ liệu mới. Số liệu hiệu suất cũng có thể được ước tính bằng cách sử dụng xác thực chéo k-gấp bằng cách sử dụng cùng một gói.


2

Ngoài ra còn có các thuật toán có thể sử dụng giá trị còn thiếu làm giá trị duy nhất và khác biệt khi xây dựng mô hình dự đoán, chẳng hạn như cây phân loại và hồi quy. chẳng hạn như xgboost


Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.