Có bao giờ là một ý tưởng tốt để cung cấp cho Tín dụng một phần tín dụng (kết quả liên tục) trong việc đào tạo một hồi quy logistic?


10

Tôi đang huấn luyện một hồi quy logistic để dự đoán vận động viên nào có khả năng hoàn thành cuộc đua sức bền khủng khiếp nhất.

Rất ít vận động viên hoàn thành cuộc đua này, vì vậy tôi bị mất cân bằng lớp nghiêm trọng và một mẫu nhỏ thành công (có thể vài chục). Tôi cảm thấy mình có thể nhận được một số "tín hiệu" tốt từ hàng tá vận động viên gần như đã tạo ra nó. . Tôi đã đưa ra một vài chức năng cho tín dụng một phần, đoạn đường nối và đường cong logistic, có thể được cung cấp các tham số khác nhau.

nhập mô tả hình ảnh ở đây

Sự khác biệt duy nhất với hồi quy là tôi sẽ sử dụng dữ liệu huấn luyện để dự đoán kết quả liên tục được sửa đổi thay vì kết quả nhị phân. So sánh dự đoán của họ trên một bộ kiểm tra (sử dụng phản hồi nhị phân) tôi đã có kết quả khá không thuyết phục - tín dụng một phần logistic dường như cải thiện nhẹ R-squared, AUC, P / R, nhưng đây chỉ là một lần thử trên một trường hợp sử dụng mẫu nhỏ.

Tôi không quan tâm đến những dự đoán được thiên vị thống nhất cho việc hoàn thành - điều tôi quan tâm là xếp hạng chính xác các thí sinh về khả năng hoàn thành của họ, hoặc thậm chí có thể ước tính khả năng kết thúc tương đối của họ .

Tôi hiểu rằng hồi quy logistic giả định mối quan hệ tuyến tính giữa các yếu tố dự đoán và nhật ký tỷ lệ chênh lệch, và rõ ràng tỷ lệ này không có giải thích thực sự nếu tôi bắt đầu rối tung với kết quả. Tôi chắc chắn rằng điều này không thông minh từ quan điểm lý thuyết, nhưng nó có thể giúp nhận được một số tín hiệu bổ sung và ngăn ngừa quá mức. (Tôi có gần như nhiều dự đoán là thành công, vì vậy có thể hữu ích khi sử dụng các mối quan hệ với hoàn thành một phần như một kiểm tra về các mối quan hệ với hoàn thành đầy đủ).

Là phương pháp này đã từng được sử dụng trong thực hành có trách nhiệm?

Dù bằng cách nào, có những loại mô hình khác ngoài kia (có thể là thứ gì đó mô hình rõ ràng tỷ lệ nguy hiểm, áp dụng theo khoảng cách thay vì thời gian) có thể phù hợp hơn cho loại phân tích này không?

Câu trả lời:


11

Đây có vẻ như là một công việc để phân tích sinh tồn, như phân tích mối nguy theo tỷ lệ Cox hoặc có thể là một số mô hình sống sót tham số.

Hãy suy nghĩ về vấn đề này ngược lại với cách bạn giải thích nó: các biến dự đoán liên quan đến khoảng cách trước đó để thoát là gì?

Bỏ cuộc là sự kiện. Khoảng cách được bảo hiểm có thể được coi là tương đương với thời gian đến sự kiện trong phân tích sinh tồn tiêu chuẩn. Sau đó, bạn có một số sự kiện bằng với số lượng cá nhân bỏ cuộc, vì vậy vấn đề của bạn với số lượng người dự đoán hạn chế sẽ giảm đi. Tất cả những người bỏ cung cấp thông tin.

Một mô hình Cox, nếu nó hoạt động trên dữ liệu của bạn, sẽ cung cấp một công cụ dự đoán tuyến tính dựa trên tất cả các giá trị biến dự đoán, xếp hạng các thí sinh theo thứ tự khoảng cách dự đoán để bỏ.


Cảm ơn vì điều đó. Có vẻ như bạn đang nói rằng sử dụng mô hình Cox, các vận động viên có khoảng cách dự đoán dài nhất để bỏ thuốc cũng ít có khả năng thoát ra trước khoảng cách kết thúc, do các mối nguy theo tỷ lệ. Điều đó có chính xác không? Ngoài ra, vì bạn đang đề xuất điều này, nên đoán ý tưởng tín dụng một phần không tấn công bạn là có cơ sở?
C8H10N4O2

Điều đó về cơ bản là chính xác. Tôi thấy việc kết hợp từ bỏ để từ bỏ trong một mô hình sinh tồn là một cách để cung cấp "tín dụng một phần" theo cách có một lý lẽ thực tiễn và lý thuyết được thiết lập tốt. Không làm việc thông qua các chi tiết, nhưng tôi nghi ngờ điều này hoàn thành chính xác những gì bạn dự định, như được thể hiện trong biểu đồ của bạn.
EdM
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.