Tiết lộ đầy đủ: Đây là bài tập về nhà. Tôi đã bao gồm một liên kết đến tập dữ liệu ( http://www.bertelsen.ca/R/logistic-regression.sav )
Mục tiêu của tôi là tối đa hóa dự đoán của những người vỡ nợ cho vay trong bộ dữ liệu này.
Mọi mô hình mà tôi đã đưa ra cho đến nay, dự đoán> 90% người không mặc định, nhưng <40% người mặc định làm cho hiệu quả phân loại nói chung ~ 80%. Vì vậy, tôi tự hỏi nếu có các hiệu ứng tương tác giữa các biến? Trong một hồi quy logistic, ngoài việc kiểm tra từng sự kết hợp có thể có cách nào để xác định các hiệu ứng tương tác tiềm năng? Hoặc cách khác là một cách để tăng hiệu quả của việc phân loại người mặc định.
Tôi bị mắc kẹt, mọi khuyến nghị sẽ hữu ích trong việc bạn chọn từ, mã R hoặc cú pháp SPSS.
Các biến chính của tôi được phác thảo trong biểu đồ và biểu đồ phân tán sau (ngoại trừ biến nhị phân)
Mô tả về các biến chính:
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
Các biến bổ sung chỉ là biến đổi của ở trên. Tôi cũng đã thử chuyển đổi một vài biến liên tục thành biến phân loại và thực hiện chúng trong mô hình, không có may mắn ở đó.
Nếu bạn muốn đưa nó vào R, nhanh chóng, đây là:
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)