Tôi đang tìm kiếm phương pháp tạo thùng tối ưu (rời rạc) của một biến liên tục đối với biến nhị phân (đích) phản ứng nhất định và với số lượng khoảng tối đa là một tham số.
ví dụ: Tôi có một tập hợp các quan sát của những người có biến "chiều cao" (số liên tục) và "has_back_pains" (nhị phân). Tôi muốn phân tách chiều cao thành 3 khoảng (nhiều nhóm) nhiều nhất với tỷ lệ người bị đau lưng khác nhau, để thuật toán tối đa hóa sự khác biệt giữa các nhóm (ví dụ như với các hạn chế nhất định, mỗi khoảng có ít nhất x quan sát).
Giải pháp rõ ràng cho vấn đề này là sử dụng cây quyết định (mô hình một biến đơn giản), nhưng tôi không thể tìm thấy bất kỳ hàm nào trong R có "số nhánh tối đa" làm tham số - tất cả chúng đều chia biến. thành 2 gropus (<= x và> x). Công cụ khai thác SAS có tham số "chi nhánh tối đa" nhưng tôi đang tìm kiếm một giải pháp phi thương mại.
một số biến của tôi chỉ có một vài giá trị duy nhất (và có thể được coi là các biến rời rạc) nhưng tôi muốn phân tách chúng thành một số khoảng nhỏ hơn.
Giải pháp gần nhất cho vấn đề của tôi được triển khai trong gói smbinning trong R (dựa trên chức năng ctree từ gói bên) nhưng nó có hai nhược điểm: không thể đặt số lượng khoảng (tuy nhiên, bạn có thể tìm cách khắc phục bằng cách thay đổi tham số p) và nó không hoạt động khi vectơ dữ liệu có ít hơn 10 giá trị duy nhất. Dù sao, bạn có thể thấy đầu ra ví dụ ở đây (cột Cutpoint và Odds rất quan trọng):
Cutpoint CntRec CntGood CntBad CntCumRec CntCumGood CntCumBad PctRec BadRate Odds LnOdds WoE IV
1 <= 272 9081 169 8912 9081 169 8912 0.1874 0.9814 0.0190 -3.9653 -0.6527 0.0596
2 <= 311 8541 246 8295 17622 415 17207 0.1762 0.9712 0.0297 -3.5181 -0.2055 0.0068
3 <= 335 2986 163 2823 20608 578 20030 0.0616 0.9454 0.0577 -2.8518 0.4608 0.0163
4 Missing 27852 1125 26727 48460 1703 46757 0.5747 0.9596 0.0421 -3.1679 0.1447 0.0129
5 Total 48460 1703 46757 NA NA NA 1.0000 0.9649 0.0364 -3.3126 0.0000 0.0956
Ồ, tôi hoàn toàn biết rằng việc tạo thùng dẫn đến mất thông tin và có các phương pháp tốt hơn, nhưng tôi sẽ sử dụng nó để trực quan hóa dữ liệu và coi các biến đó là một yếu tố.
SPSS Algorithms Optimal Binning
.