Ý tưởng về gui11aume xây dựng mô hình hai giai đoạn là cách phù hợp, tuy nhiên, người ta cần xem xét khó khăn đặc biệt của thiết lập của bạn, đó là mối tương quan tiêu cực rất mạnh giữa số tiền nợ và xác suất thanh toán
Vấn đề chính của việc xây dựng một mô hình hai giai đoạn ở đây là, mô hình thứ hai (để dự đoán khoản nợ), khi được xây dựng chỉ dựa trên "số không", được xây dựng trên một mẫu dân số không ngẫu nhiên nhất ( tức là toàn bộ tập dữ liệu), nhưng mô hình kết hợp phải được áp dụng lại trên toàn bộ dân số. Điều này có nghĩa là mô hình thứ hai sẽ phải đưa ra dự đoán cho các phần của dữ liệu mà nó chưa từng thấy trước đây, dẫn đến mất độ chính xác. Đây được gọi là Xu hướng lựa chọn mẫu (để biết tổng quan từ phối cảnh ML, tôi khuyên bạn nên sử dụng Khung mạng Bayesian để từ chối suy luận của Smith và Elkan).
Các KDD-Cup-98 xử lý một vấn đề tương tự mà người ta nên dự đoán liệu một nhà tài trợ cho một tổ chức cựu chiến binh có khả năng đóng góp một lần nữa và bao nhiêu nó có khả năng đóng góp. Trong bộ dữ liệu này, xác suất quyên góp một lần nữa cũng tương quan nghịch với số tiền dự kiến. Xu hướng chọn mẫu cũng xuất hiện.
Giải pháp khiến tôi ấn tượng nhất có thể tìm thấy trong Học tập và Ra quyết định khi Chi phí và Xác suất là cả hai đều không biết bởi Bianca Zadrozny và Charles Elkan. Họ đã tạo ra một giải pháp nhạy cảm về chi phí dựa trên sự điều chỉnh của Heckman , theo hiểu biết của tôi là cách tiếp cận có hệ thống đầu tiên để điều chỉnh sai lệch lựa chọn (mẫu).