Khi bạn phân loại bằng cách sử dụng logit, đây là những gì xảy ra.
Logit dự đoán xác suất mặc định (PD) của khoản vay, là một số trong khoảng từ 0 đến 1. Tiếp theo, bạn đặt ngưỡng D, sao cho bạn đánh dấu khoản vay thành mặc định nếu PD> D và đánh dấu nó là không mặc định nếu PD
Đương nhiên, trong một quần thể cho vay điển hình PD << 1. Vì vậy, trong trường hợp của bạn, 7% là xác suất khá cao của dữ liệu một năm (PD thường được báo cáo hàng năm). Nếu đây là dữ liệu nhiều năm, thì chúng ta đang nói về cái gọi là PD tích lũy, ví dụ trong trường hợp này cumPD = 7% không phải là con số cao trong 10 năm dữ liệu. Do đó, theo bất kỳ tiêu chuẩn nào, tôi sẽ không nói rằng tập dữ liệu của bạn có vấn đề. Tôi sẽ mô tả nó ít nhất là điển hình cho dữ liệu mặc định cho vay, nếu không phải là tuyệt vời (theo nghĩa là bạn có số lượng mặc định tương đối lớn).
Bây giờ, giả sử rằng mô hình của bạn dự đoán ba cấp độ PD sau:
- 0,1 (563.426)
- 0,5 (20.000)
- 0,9 (31.932)
Giả sử cũng có mặc định thực tế cho các nhóm này là:
Bây giờ bạn có thể đặt D thành các giá trị khác nhau và xem ma trận thay đổi như thế nào. Trước tiên hãy sử dụng D = 0,4:
- Mặc định thực tế, dự đoán không mặc định: 0
- Mặc định thực tế, dự đoán mặc định: 41.932
- Thực tế không mặc định, dự đoán không mặc định: 563.426
- Thực tế không mặc định, dự đoán mặc định: 10.000
Nếu bạn đặt D = 0,6:
- Mặc định thực tế, dự đoán không mặc định: 31.932
- Mặc định thực tế, dự đoán mặc định: 10.000
- Thực tế không mặc định, dự đoán không mặc định: 573.426
- Thực tế không mặc định, dự đoán mặc định: 0
Nếu bạn đặt D = 0,99:
- Mặc định thực tế, dự đoán không mặc định: 41.932
- Mặc định thực tế, dự đoán mặc định: 0
- Thực tế không mặc định, dự đoán không mặc định: 573.426
- Thực tế không mặc định, dự đoán mặc định: 0
Trường hợp cuối cùng là những gì bạn thấy trong kết quả mô hình của bạn. Trong trường hợp này, tôi nhấn mạnh ngưỡng D cho trình phân loại. Một thay đổi đơn giản trong D có thể cải thiện các đặc điểm nhất định của dự báo của bạn. Lưu ý rằng trong cả ba trường hợp, PD được dự đoán vẫn giữ nguyên, chỉ có ngưỡng D đã thay đổi.
Tất nhiên, nó cũng có thể là hồi quy logit của bạn là crappy, tất nhiên. Vì vậy, trong trường hợp này bạn có ít nhất hai biến: thông số logit và ngưỡng. Cả hai đều tác động đến sức mạnh dự báo của bạn.