Tôi đang tìm cách xây dựng một mô hình dự đoán để dự đoán khuấy và tìm cách sử dụng mô hình sống sót thời gian riêng biệt được trang bị cho một tập dữ liệu huấn luyện theo thời gian cá nhân (một hàng cho mỗi khách hàng và thời gian riêng biệt họ gặp rủi ro, với chỉ số cho sự kiện - bằng 1 nếu khuấy đảo xảy ra trong khoảng thời gian đó, khác 0).
- Tôi đang điều chỉnh mô hình bằng cách sử dụng hồi quy logistic thông thường bằng cách sử dụng kỹ thuật từ Singer và Willet.
- Vụ việc của khách hàng có thể xảy ra ở bất cứ đâu trong suốt một tháng, nhưng chỉ đến cuối tháng chúng ta mới biết về điều đó (tức là đôi khi trong tháng họ rời đi). 24 tháng đang được sử dụng cho đào tạo.
- Biến thời gian đang được sử dụng là thời gian gốc của mẫu - tất cả các khách hàng hoạt động kể từ ngày 31/12/2008 - tất cả họ đều nhận được t = 0 kể từ tháng 1 năm 2009 (không phải là cách cổ điển để làm điều đó, nhưng tôi tin cách này khi xây dựng một mô hình dự đoán so với mô hình thống kê truyền thống). Một đồng biến được sử dụng là nhiệm kỳ của khách hàng tại thời điểm đó.
Có một loạt các đồng biến đã được xây dựng - một số không thay đổi trên các hàng của bộ dữ liệu (cho một khách hàng nhất định) và một số khác.
Các biến số thời gian này là vấn đề và điều gì gây ra cho tôi nghi ngờ một mô hình sống sót cho dự đoán khuấy đảo (so với một phân loại thông thường dự đoán khuấy đảo trong x tháng tiếp theo dựa trên dữ liệu ảnh chụp nhanh hiện tại). Những cái bất biến thời gian mô tả hoạt động của tháng trước và dự kiến sẽ là tác nhân quan trọng.
Việc triển khai mô hình dự đoán này, ít nhất là dựa trên suy nghĩ hiện tại của tôi, là chấm điểm cơ sở khách hàng vào cuối mỗi tháng, tính toán xác suất / rủi ro bị đảo lộn trong tháng tới. Sau đó một lần nữa trong 1,2 hoặc 3 tháng tiếp theo. Sau đó trong 1,2,3,4,5,6 tháng tiếp theo. Đối với xác suất khởi hành 3 và 6 tháng, tôi sẽ sử dụng đường cong sinh tồn ước tính.
Vấn đề:
Khi nghĩ về việc ghi bàn, làm thế nào tôi có thể kết hợp các yếu tố dự đoán thay đổi theo thời gian? Có vẻ như tôi chỉ có thể ghi điểm với các yếu tố dự đoán bất biến theo thời gian hoặc bao gồm cả những yếu tố bất biến theo thời gian, bạn phải biến chúng thành bất biến theo thời gian - được đặt thành giá trị ngay bây giờ.
Có ai có kinh nghiệm hoặc suy nghĩ về việc sử dụng mô hình sinh tồn này không?
Cập nhật dựa trên nhận xét @JVM:
Vấn đề không nằm ở việc ước tính mô hình, giải thích các hệ số, vẽ sơ đồ nguy cơ / tỷ lệ sống của các giá trị hiệp biến thú vị bằng cách sử dụng dữ liệu huấn luyện, v.v. Vấn đề nằm ở việc sử dụng mô hình để dự báo rủi ro cho một khách hàng cụ thể. Nói vào cuối tháng này, tôi muốn chấm điểm tất cả những người vẫn là khách hàng tích cực với mô hình này. Tôi muốn dự báo rằng ước tính rủi ro trong x kỳ (rủi ro đóng tài khoản vào cuối tháng tới. Rủi ro đóng tài khoản vào cuối hai tháng kể từ bây giờ, v.v.). Nếu có các biến số thời gian khác nhau, giá trị của chúng không được biết trong bất kỳ giai đoạn nào trong tương lai, vậy làm thế nào để sử dụng mô hình?
Cập nhật cuối cùng:
Một bộ dữ liệu thời gian của một người sẽ có một mục nhập cho mỗi người và mỗi khoảng thời gian họ có nguy cơ. Giả sử có các khoảng thời gian J (có thể J = 1 ... 24 trong 24 tháng) Hãy nói rằng tôi xây dựng mô hình tồn tại thời gian riêng biệt, trong đó để đơn giản chúng ta chỉ coi thời gian T là tuyến tính và có hai biến số X và Z trong đó X là thời gian -invariant, có nghĩa là nó không đổi trong mỗi khoảng thời gian cho người thứ i và Z là thời gian khác nhau, có nghĩa là mỗi bản ghi cho người thứ i có thể mang một giá trị khác nhau. Ví dụ: X có thể là giới tính của khách hàng và Z có thể là giá trị của họ đối với công ty trong tháng trước. Mô hình cho logit của mối nguy hiểm cho người thứ i trong khoảng thời gian thứ j là:
Vì vậy, vấn đề là, khi sử dụng các biến số thời gian khác nhau và dự báo (vào tương lai chưa được phát hiện) với dữ liệu mới, không xác định.
Các giải pháp duy nhất tôi có thể nghĩ là:
- Đừng sử dụng các đồng biến thời gian khác nhau như Z. Điều này sẽ làm suy yếu rất nhiều mô hình để dự đoán sự kiện khuấy đảo, ví dụ, vì việc thấy Z giảm sẽ cho chúng ta biết khách hàng đang thảnh thơi và có lẽ chuẩn bị rời đi.
- Sử dụng các biến số thời gian khác nhau nhưng độ trễ chúng (như Z ở trên) cho phép chúng tôi dự báo tuy nhiên nhiều giai đoạn chúng tôi đã trì hoãn biến số (một lần nữa, nghĩ về mô hình chấm điểm dữ liệu hiện tại mới).
- Sử dụng các biến số thời gian khác nhau nhưng giữ chúng như các hằng số trong dự báo (vì vậy mô hình được trang bị cho các dữ liệu khác nhau nhưng để dự đoán chúng ta để chúng không đổi và mô phỏng cách thay đổi các giá trị này, nếu sau đó thực sự được quan sát, sẽ ảnh hưởng đến nguy cơ bị đảo lộn.
- Sử dụng các biến số thời gian khác nhau nhưng đánh giá các giá trị tương lai của chúng dựa trên dự báo từ dữ liệu đã biết. Ví dụ: Dự báo cho mỗi khách hàng.