Cách tốt nhất để kết hợp phản ứng nhị phân và liên tục


10

Tôi đang cố gắng đưa ra cách tốt nhất để dự đoán số tiền thanh toán cho một công ty thu nợ. Biến phụ thuộc chỉ khác không khi thanh toán đã được thực hiện. Có thể hiểu được, có rất nhiều số không vì hầu hết mọi người không thể đạt được hoặc không thể trả được nợ.

Ngoài ra còn có một mối tương quan tiêu cực rất mạnh giữa số tiền nợ và xác suất thanh toán. Thông thường, tôi sẽ tạo ra một mô hình logistic để dự đoán xác suất trả / không trả nhưng điều này có hậu quả đáng tiếc là tìm được những người có số dư thấp nhất.

Có cách nào để kết hợp mô hình trả / không trả tiền hậu cần với một mô hình riêng biệt dự đoán số tiền thanh toán không?


5
Không có hồi quy log-bình thường thổi phồng, dường như phù hợp với nhu cầu của bạn. Xem bài viết này
Peter Flom - Tái lập Monica

@PeterFlom bạn nghĩ điều này so sánh như thế nào với thảo luận của gui11aume và steffen về mô hình hai giai đoạn và xu hướng lựa chọn mẫu?
As3adTintin

1
Tôi nghĩ cả hai đều có thể hữu ích. Đã có cuộc thảo luận so sánh hai, nhưng tôi quên nơi tôi đã đọc nó.
Peter Flom - Tái lập Monica

Điều cuối cùng tôi làm là tạo ra một mạng lưới thần kinh với một kích hoạt relu cho đầu ra và có nghĩa là mất logarit bình phương
Zelazny7

được rồi cảm ơn. mạng lưới thần kinh / kích hoạt relu nghe qua kiến ​​thức hiện tại của tôi, nhưng tôi sẽ tiếp tục xem xét những điều này. cảm ơn vì đã đặt câu hỏi ban đầu và cho ý kiến!
As3adTintin

Câu trả lời:


6

Ý tưởng về gui11aume xây dựng mô hình hai giai đoạn là cách phù hợp, tuy nhiên, người ta cần xem xét khó khăn đặc biệt của thiết lập của bạn, đó là mối tương quan tiêu cực rất mạnh giữa số tiền nợ và xác suất thanh toán

Vấn đề chính của việc xây dựng một mô hình hai giai đoạn ở đây là, mô hình thứ hai (để dự đoán khoản nợ), khi được xây dựng chỉ dựa trên "số không", được xây dựng trên một mẫu dân số không ngẫu nhiên nhất ( tức là toàn bộ tập dữ liệu), nhưng mô hình kết hợp phải được áp dụng lại trên toàn bộ dân số. Điều này có nghĩa là mô hình thứ hai sẽ phải đưa ra dự đoán cho các phần của dữ liệu mà nó chưa từng thấy trước đây, dẫn đến mất độ chính xác. Đây được gọi là Xu hướng lựa chọn mẫu (để biết tổng quan từ phối cảnh ML, tôi khuyên bạn nên sử dụng Khung mạng Bayesian để từ chối suy luận của Smith và Elkan).

Các KDD-Cup-98 xử lý một vấn đề tương tự mà người ta nên dự đoán liệu một nhà tài trợ cho một tổ chức cựu chiến binh có khả năng đóng góp một lần nữa và bao nhiêu nó có khả năng đóng góp. Trong bộ dữ liệu này, xác suất quyên góp một lần nữa cũng tương quan nghịch với số tiền dự kiến. Xu hướng chọn mẫu cũng xuất hiện.

Giải pháp khiến tôi ấn tượng nhất có thể tìm thấy trong Học tập và Ra quyết định khi Chi phí và Xác suất là cả hai đều không biết bởi Bianca Zadrozny và Charles Elkan. Họ đã tạo ra một giải pháp nhạy cảm về chi phí dựa trên sự điều chỉnh của Heckman , theo hiểu biết của tôi là cách tiếp cận có hệ thống đầu tiên để điều chỉnh sai lệch lựa chọn (mẫu).


+1 Đoạn thứ hai của bạn rất nổi bật một cái gì đó còn thiếu trong câu trả lời của tôi.
gui11aume

Làm thế nào điều này so sánh với đề xuất của Peter Flom về hồi quy log-log bình thường được thổi phồng?
As3adTintin

3

Đó là một câu hỏi rất hay (+1).

Tại sao không coi 0 là như thể họ là NA?

Bạn có thể thêm một phản hồi giả cho biết liệu có bất kỳ khoản tiền nào đã được phục hồi hay không ( nghĩa là bằng 0 khi giá trị bằng 0 và 1 khi giá trị dương) và phù hợp với mô hình logistic trên phản hồi nhị phân này với cùng các yếu tố dự đoán. Bạn sẽ phù hợp với 2 mô hình: phản hồi nhị phân sử dụng tất cả các điểm dữ liệu và phản hồi liên tục chỉ sử dụng các điểm dữ liệu không phải là zeron (phù hợp với ý tưởng coi 0 là NA).

Bạn vẫn có thể kiểm tra tính vô hiệu của các tham số trong mỗi mô hình và tính toán mức tăng dự kiến ​​bằng cách sử dụng cả hai bộ tham số.


Cảm ơn vì đã góp ý. Trước câu hỏi của tôi, tôi đã tạo hai biến phụ thuộc và bộ dữ liệu tương tự như những gì bạn mô tả. Bạn có thể giải thích những gì bạn muốn nói là "Vẫn là sự vô hiệu của các thông số" không? Cảm ơn!
Zelazny7

"Vẫn là sự vô hiệu của các tham số" là một lỗi đánh máy mà tôi đã sửa trong văn bản. Xin lỗi về điều đó :-)
gui11aume
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.