XGBoost có thể xử lý dữ liệu bị thiếu trong giai đoạn dự báo


11

Gần đây tôi đã xem xét thuật toán XGBoost và tôi đã nhận thấy rằng thuật toán này có thể xử lý dữ liệu bị thiếu (mà không yêu cầu phải cắt bỏ) trong giai đoạn đào tạo. Tôi đã tự hỏi nếu XGboost có thể xử lý dữ liệu bị thiếu (mà không yêu cầu phải cắt bỏ) khi nó được sử dụng để dự báo các quan sát mới hoặc cần phải áp đặt dữ liệu bị thiếu.

Cảm ơn trước.

Câu trả lời:


14

xgboost quyết định tại thời điểm đào tạo cho dù các giá trị bị thiếu đi vào nút bên phải hay bên trái. Nó chọn cái nào để giảm thiểu tổn thất. Nếu không có giá trị thiếu tại thời điểm đào tạo, nó mặc định gửi bất kỳ lỗi mới nào đến nút bên phải.

Nếu có tín hiệu trong việc phân phối các lỗi của bạn, thì điều này về cơ bản là phù hợp với mô hình.

Hãy cẩn thận nếu dữ liệu chấm điểm của bạn có các giá trị còn thiếu được phân phối khác với dữ liệu đào tạo của bạn. Xử lý thiếu của xgboost là thuận tiện nhưng không bảo vệ chống lại mặt nạ.

Nguồn: câu trả lời này

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.