Câu hỏi này là loại chung chung và dài dòng, nhưng xin vui lòng chịu đựng với tôi.
Trong ứng dụng của mình, tôi có nhiều bộ dữ liệu, mỗi bộ gồm ~ 20.000 datapoint với ~ 50 tính năng và một biến nhị phân phụ thuộc duy nhất. Tôi đang cố gắng mô hình hóa các bộ dữ liệu bằng cách sử dụng hồi quy logistic thường xuyên (gói glmnet R )
Là một phần trong phân tích của tôi, tôi đã tạo ra các lô dư như sau. Đối với mỗi tính năng, tôi sắp xếp các điểm dữ liệu theo giá trị của tính năng đó, chia các điểm dữ liệu thành 100 nhóm và sau đó tính giá trị đầu ra trung bình và giá trị dự đoán trung bình trong mỗi nhóm. Tôi âm mưu những khác biệt.
Dưới đây là một ví dụ cốt truyện còn lại:
Trong cốt truyện trên, tính năng này có phạm vi [0,1] (với nồng độ nặng ở 1). Như bạn có thể thấy, khi giá trị tính năng thấp, mô hình dường như bị thiên lệch về việc đánh giá quá cao khả năng của đầu ra 1. Ví dụ, trong nhóm ngoài cùng bên trái, mô hình đánh giá quá cao xác suất khoảng 9%.
Được trang bị thông tin này, tôi muốn thay đổi định nghĩa tính năng theo cách đơn giản để gần đúng cho sai lệch này. Thay đổi như thay thế
hoặc là
Tôi có thể làm cái này như thế nào? Tôi đang tìm kiếm một phương pháp chung để con người có thể nhanh chóng cuộn qua tất cả ~ 50 lô và thực hiện các thay đổi, và thực hiện điều này cho tất cả các bộ dữ liệu và lặp lại thường xuyên để giữ cho các mô hình được cập nhật khi dữ liệu phát triển theo thời gian.
Như một câu hỏi chung, đây có phải là cách tiếp cận đúng? Google tìm kiếm "phân tích dư hồi quy logistic" không trả về nhiều kết quả với lời khuyên thực tế tốt. Họ dường như được cố định khi trả lời câu hỏi, "Mô hình này có phù hợp không?" và đưa ra các bài kiểm tra khác nhau như Hosmer-Lemeshow để trả lời. Nhưng tôi không quan tâm đến việc liệu mô hình của tôi có tốt không, tôi muốn biết làm thế nào để làm cho nó tốt hơn!