Máy học và dữ liệu bị thiếu: Impute, và nếu vậy thì khi nào?


7

Tôi thường làm việc nhiều hơn về mặt ước tính hiệu quả / suy luận nguyên nhân của mọi thứ, nơi mọi người khá thoải mái với nhiều lần bị mất dữ liệu, nhưng hiện tại tôi đang làm việc trong một dự án nhiều hơn về mặt học máy.

Chúng tôi hy vọng sẽ có một số dữ liệu bị thiếu, bởi vì đó là dữ liệu y tế trong thế giới thực, luôn luôn như vậy.

Xu hướng của một số cộng tác viên là đi kèm với phân tích loại trường hợp hoàn chỉnh, trong đó chỉ các đối tượng có dữ liệu đầy đủ được sử dụng, nhưng điều này làm tôi hơi lo lắng, vì tôi cảm thấy như những mẫu dữ liệu bị thiếu có thể có tác động.

Là "thực hành tốt nhất" cho các nhiệm vụ học máy để sử dụng một số hình thức buộc tội? Nếu vậy, điều này có nên được thực hiện trước khi lựa chọn tính năng?


1
Điều tuyệt vời về dự đoán là bạn có thể đi tìm hiểu những gì hoạt động. Bạn chỉ cần lý thuyết nếu bạn muốn biết tại sao một cái gì đó hoạt động.
generic_user

@generic_user hoặc để hướng dẫn lựa chọn của bạn khi có nhiều thứ để thử hơn là bạn có tài nguyên cho = p
user20160

Câu trả lời:


2

Xu hướng của một số cộng tác viên là đi kèm với phân tích loại trường hợp hoàn chỉnh, trong đó chỉ các đối tượng có dữ liệu đầy đủ được sử dụng, nhưng điều này làm tôi hơi lo lắng, vì tôi cảm thấy như những mẫu dữ liệu bị thiếu có thể có tác động.

Tôi sẽ lập luận rằng trực giác của bạn là chính xác, dữ liệu bị thiếu có thể có sức mạnh dự đoán mạnh mẽ mà không nên vứt bỏ.

Câu hỏi là phải làm gì với dữ liệu còn thiếu và đây là hai tùy chọn (trong số nhiều)

  • Sử dụng thuật toán dựa trên cây quyết định có thể xử lý dữ liệu bị thiếu. Cụ thể, nó sẽ coi dữ liệu phân loại còn thiếu là một danh mục của riêng mình. Ví dụ: XGboost, Light GBM, Catboost hoặc bất kỳ thuật toán cây nâng cao nào khác

  • Đối với các thuật toán khác không thể xử lý NAN (ví dụ: hồi quy logistic, mạng nơ ron, v.v.): sử dụng một số hình thức buộc tội đối với dữ liệu bị thiếu: điều này sẽ phụ thuộc vào hình dạng và đặc thù của phân phối dữ liệu. Giá trị trung bình không phải lúc nào cũng là ý tưởng tốt nhất và chế độ hoặc phần trăm đôi khi tốt hơn

Nếu bạn chủ yếu quan tâm đến sức mạnh dự đoán thì tôi khuyên bạn nên sử dụng các thuật toán dựa trên cây đã trở thành chuẩn mực trong các cuộc thi Kaggle (với thành công lớn)


1
Điều đáng nói là trong trường hợp hồi quy, việc tạo ra is_missingtính năng nhị phân mới là hoàn toàn hợp lý nếu bạn tin rằng sự thiếu hụt có thể có sức mạnh dự đoán.
Matthew Drury
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.