Tôi đang huấn luyện một hồi quy logistic để dự đoán vận động viên nào có khả năng hoàn thành cuộc đua sức bền khủng khiếp nhất.
Rất ít vận động viên hoàn thành cuộc đua này, vì vậy tôi bị mất cân bằng lớp nghiêm trọng và một mẫu nhỏ thành công (có thể vài chục). Tôi cảm thấy mình có thể nhận được một số "tín hiệu" tốt từ hàng tá vận động viên gần như đã tạo ra nó. . Tôi đã đưa ra một vài chức năng cho tín dụng một phần, đoạn đường nối và đường cong logistic, có thể được cung cấp các tham số khác nhau.
Sự khác biệt duy nhất với hồi quy là tôi sẽ sử dụng dữ liệu huấn luyện để dự đoán kết quả liên tục được sửa đổi thay vì kết quả nhị phân. So sánh dự đoán của họ trên một bộ kiểm tra (sử dụng phản hồi nhị phân) tôi đã có kết quả khá không thuyết phục - tín dụng một phần logistic dường như cải thiện nhẹ R-squared, AUC, P / R, nhưng đây chỉ là một lần thử trên một trường hợp sử dụng mẫu nhỏ.
Tôi không quan tâm đến những dự đoán được thiên vị thống nhất cho việc hoàn thành - điều tôi quan tâm là xếp hạng chính xác các thí sinh về khả năng hoàn thành của họ, hoặc thậm chí có thể ước tính khả năng kết thúc tương đối của họ .
Tôi hiểu rằng hồi quy logistic giả định mối quan hệ tuyến tính giữa các yếu tố dự đoán và nhật ký tỷ lệ chênh lệch, và rõ ràng tỷ lệ này không có giải thích thực sự nếu tôi bắt đầu rối tung với kết quả. Tôi chắc chắn rằng điều này không thông minh từ quan điểm lý thuyết, nhưng nó có thể giúp nhận được một số tín hiệu bổ sung và ngăn ngừa quá mức. (Tôi có gần như nhiều dự đoán là thành công, vì vậy có thể hữu ích khi sử dụng các mối quan hệ với hoàn thành một phần như một kiểm tra về các mối quan hệ với hoàn thành đầy đủ).
Là phương pháp này đã từng được sử dụng trong thực hành có trách nhiệm?
Dù bằng cách nào, có những loại mô hình khác ngoài kia (có thể là thứ gì đó mô hình rõ ràng tỷ lệ nguy hiểm, áp dụng theo khoảng cách thay vì thời gian) có thể phù hợp hơn cho loại phân tích này không?