Tôi hiện đang sử dụng XGBoost để dự đoán rủi ro, có vẻ như nó đang làm rất tốt trong bộ phận phân loại nhị phân nhưng đầu ra xác suất bị tắt, tức là thay đổi giá trị của một tính năng trong một quan sát bằng một lượng rất nhỏ có thể tạo ra xác suất đầu ra nhảy từ 0,5 đến 0,99.
Tôi hầu như không thấy đầu ra trong phạm vi 0,6-0,8. Trong mọi trường hợp, xác suất nhỏ hơn 0,99 hoặc 1.
Tôi nhận thức được các phương pháp hiệu chỉnh bài đào tạo như Platt Scale và Logistic Correction, nhưng tôi đã tự hỏi liệu có bất cứ điều gì tôi có thể điều chỉnh trong quá trình đào tạo XGBoost.
Tôi gọi XGBoost từ các ngôn ngữ khác nhau bằng FFI, vì vậy sẽ rất tuyệt nếu tôi có thể khắc phục vấn đề này mà không giới thiệu các thư viện hiệu chuẩn khác, ví dụ: thay đổi số liệu eval từ AUC sang mất nhật ký.
XGBoost
là khá mạnh mẽ chống lại các ngoại lệ, khi so sánh với các phương pháp vanilla khác như SVM
.