Đối với mỗi bản ghi trong bộ dữ liệu của tôi, tôi có các thông tin sau
Trong đó là các tính năng, là 1 nếu sự kiện đích xảy ra và 0 nếu không và là dấu thời gian của sự kiện đã xảy ra. Cụ thể, có thể bị thiếu nếu không có sự kiện hoặc được đặt theo thời gian kết thúc quá trình theo dõi.
Tôi muốn tính toán một chỉ số rủi ro cho mỗi bản ghi trong tập dữ liệu của tôi.
Tôi đã suy nghĩ để đi đến một mô hình phân loại sử dụng các tính năng để dự đoán lớp . Tuy nhiên, rất quan trọng: nếu sự kiện có khả năng xảy ra sớm thì rủi ro sẽ cao hơn.
Đó là lý do tại sao một phân tích sinh tồn nên phù hợp cho vấn đề này. Tôi không cần ước tính đầy đủ của mà chỉ cần một chỉ số duy nhất biểu thị rủi ro cho một bản ghi.
Thời gian sống trung bình, có thể được tính cho mỗi bản ghi, dường như là một chỉ số rủi ro tốt - rủi ro càng thấp.
Câu hỏi của tôi là:
- Là phân tích sinh tồn phù hợp với mục đích của tôi?
- Làm thế nào tôi có thể đánh giá hiệu suất của mô hình của tôi?
Về câu hỏi (2): Tôi rất muốn sử dụng -index của Mitchell chẳng hạn, nhưng tôi không chắc chắn về kết quả dự đoán nào được sử dụng để tính toán nó. Từ cuốn sách Chiến lược mô hình hồi quy của trangellell trang 247:
Các chỉ số [...] được tính bằng cách lấy tất cả các cặp có thể của đối tượng mà một đối tượng phản ứng và còn lại thì không. Chỉ số là tỷ lệ của các cặp như vậy với người phản hồi có xác suất dự đoán phản ứng cao hơn so với người không phản hồi.
Nếu phân tích sinh tồn hóa ra là một lựa chọn đúng đắn, tôi nghĩ rằng thật dễ dàng để sử dụng một số phương pháp tiêu chuẩn để giới thiệu các biến số thời gian khác nhau .