Mô hình sống còn để dự đoán khuấy đảo - Dự đoán thay đổi theo thời gian?


17

Tôi đang tìm cách xây dựng một mô hình dự đoán để dự đoán khuấy và tìm cách sử dụng mô hình sống sót thời gian riêng biệt được trang bị cho một tập dữ liệu huấn luyện theo thời gian cá nhân (một hàng cho mỗi khách hàng và thời gian riêng biệt họ gặp rủi ro, với chỉ số cho sự kiện - bằng 1 nếu khuấy đảo xảy ra trong khoảng thời gian đó, khác 0).

  • Tôi đang điều chỉnh mô hình bằng cách sử dụng hồi quy logistic thông thường bằng cách sử dụng kỹ thuật từ Singer và Willet.
  • Vụ việc của khách hàng có thể xảy ra ở bất cứ đâu trong suốt một tháng, nhưng chỉ đến cuối tháng chúng ta mới biết về điều đó (tức là đôi khi trong tháng họ rời đi). 24 tháng đang được sử dụng cho đào tạo.
  • Biến thời gian đang được sử dụng là thời gian gốc của mẫu - tất cả các khách hàng hoạt động kể từ ngày 31/12/2008 - tất cả họ đều nhận được t = 0 kể từ tháng 1 năm 2009 (không phải là cách cổ điển để làm điều đó, nhưng tôi tin cách này khi xây dựng một mô hình dự đoán so với mô hình thống kê truyền thống). Một đồng biến được sử dụng là nhiệm kỳ của khách hàng tại thời điểm đó.
  • Có một loạt các đồng biến đã được xây dựng - một số không thay đổi trên các hàng của bộ dữ liệu (cho một khách hàng nhất định) và một số khác.

  • Các biến số thời gian này là vấn đề và điều gì gây ra cho tôi nghi ngờ một mô hình sống sót cho dự đoán khuấy đảo (so với một phân loại thông thường dự đoán khuấy đảo trong x tháng tiếp theo dựa trên dữ liệu ảnh chụp nhanh hiện tại). Những cái bất biến thời gian mô tả hoạt động của tháng trước và dự kiến ​​sẽ là tác nhân quan trọng.

Việc triển khai mô hình dự đoán này, ít nhất là dựa trên suy nghĩ hiện tại của tôi, là chấm điểm cơ sở khách hàng vào cuối mỗi tháng, tính toán xác suất / rủi ro bị đảo lộn trong tháng tới. Sau đó một lần nữa trong 1,2 hoặc 3 tháng tiếp theo. Sau đó trong 1,2,3,4,5,6 tháng tiếp theo. Đối với xác suất khởi hành 3 và 6 tháng, tôi sẽ sử dụng đường cong sinh tồn ước tính.

Vấn đề:

Khi nghĩ về việc ghi bàn, làm thế nào tôi có thể kết hợp các yếu tố dự đoán thay đổi theo thời gian? Có vẻ như tôi chỉ có thể ghi điểm với các yếu tố dự đoán bất biến theo thời gian hoặc bao gồm cả những yếu tố bất biến theo thời gian, bạn phải biến chúng thành bất biến theo thời gian - được đặt thành giá trị ngay bây giờ.

Có ai có kinh nghiệm hoặc suy nghĩ về việc sử dụng mô hình sinh tồn này không?

Cập nhật dựa trên nhận xét @JVM:

Vấn đề không nằm ở việc ước tính mô hình, giải thích các hệ số, vẽ sơ đồ nguy cơ / tỷ lệ sống của các giá trị hiệp biến thú vị bằng cách sử dụng dữ liệu huấn luyện, v.v. Vấn đề nằm ở việc sử dụng mô hình để dự báo rủi ro cho một khách hàng cụ thể. Nói vào cuối tháng này, tôi muốn chấm điểm tất cả những người vẫn là khách hàng tích cực với mô hình này. Tôi muốn dự báo rằng ước tính rủi ro trong x kỳ (rủi ro đóng tài khoản vào cuối tháng tới. Rủi ro đóng tài khoản vào cuối hai tháng kể từ bây giờ, v.v.). Nếu có các biến số thời gian khác nhau, giá trị của chúng không được biết trong bất kỳ giai đoạn nào trong tương lai, vậy làm thế nào để sử dụng mô hình?

Cập nhật cuối cùng:

Một bộ dữ liệu thời gian của một người sẽ có một mục nhập cho mỗi người và mỗi khoảng thời gian họ có nguy cơ. Giả sử có các khoảng thời gian J (có thể J = 1 ... 24 trong 24 tháng) Hãy nói rằng tôi xây dựng mô hình tồn tại thời gian riêng biệt, trong đó để đơn giản chúng ta chỉ coi thời gian T là tuyến tính và có hai biến số X và Z trong đó X là thời gian -invariant, có nghĩa là nó không đổi trong mỗi khoảng thời gian cho người thứ i và Z là thời gian khác nhau, có nghĩa là mỗi bản ghi cho người thứ i có thể mang một giá trị khác nhau. Ví dụ: X có thể là giới tính của khách hàng và Z có thể là giá trị của họ đối với công ty trong tháng trước. Mô hình cho logit của mối nguy hiểm cho người thứ i trong khoảng thời gian thứ j là:

tôiogTôit(h(tTôij))= =α0+α1Tj+β1XTôi+β2ZTôij

Vì vậy, vấn đề là, khi sử dụng các biến số thời gian khác nhau và dự báo (vào tương lai chưa được phát hiện) với dữ liệu mới, không xác định.Zj

Các giải pháp duy nhất tôi có thể nghĩ là:

  • Đừng sử dụng các đồng biến thời gian khác nhau như Z. Điều này sẽ làm suy yếu rất nhiều mô hình để dự đoán sự kiện khuấy đảo, ví dụ, vì việc thấy Z giảm sẽ cho chúng ta biết khách hàng đang thảnh thơi và có lẽ chuẩn bị rời đi.
  • Sử dụng các biến số thời gian khác nhau nhưng độ trễ chúng (như Z ở trên) cho phép chúng tôi dự báo tuy nhiên nhiều giai đoạn chúng tôi đã trì hoãn biến số (một lần nữa, nghĩ về mô hình chấm điểm dữ liệu hiện tại mới).
  • Sử dụng các biến số thời gian khác nhau nhưng giữ chúng như các hằng số trong dự báo (vì vậy mô hình được trang bị cho các dữ liệu khác nhau nhưng để dự đoán chúng ta để chúng không đổi và mô phỏng cách thay đổi các giá trị này, nếu sau đó thực sự được quan sát, sẽ ảnh hưởng đến nguy cơ bị đảo lộn.
  • Sử dụng các biến số thời gian khác nhau nhưng đánh giá các giá trị tương lai của chúng dựa trên dự báo từ dữ liệu đã biết. Ví dụ: Dự báo cho mỗi khách hàng.Zj

Một vài câu hỏi: Đầu tiên, bạn có muốn sử dụng mô hình thời gian riêng biệt không? Những gì bạn muốn làm có thể đơn giản hơn trong một mô hình sống sót tham số. Thứ hai, bạn có thể cung cấp một ví dụ về ý nghĩa của bạn khi nói chuyện; ow có thể chỉ là một ví dụ về dữ liệu của bạn trông như thế nào?
Jason Morgan

@JWM. Churn có nghĩa là khách hàng đã hủy tài khoản của họ. Vì tôi chỉ biết tháng khách hàng bị hủy, tôi nghĩ thời gian riêng biệt là phù hợp. Tôi tin rằng cùng một vấn đề với các yếu tố dự đoán thay đổi thời gian tồn tại nếu mô hình là thời gian rời rạc hoặc liên tục (Cox hoặc AFT) Không?
B_Miner 17/03/2016

Tôi xin lỗi vì vẫn chưa hoàn toàn nắm bắt được mối quan tâm của bạn. Bạn sẽ có thể ước tính mô hình của bạn đủ tốt. Mặc dù, vì bạn có thể sẽ gặp lỗi đo lường trong TVC và biến phụ thuộc, nên có lẽ bạn nên sử dụng độ trễ của TVC trong mô hình. Mặt khác, bạn có nguy cơ sử dụng giá trị đồng biến được đo sau khi xảy ra sự kiện như một công cụ dự đoán cho sự kiện đó. Bạn có thể thấy vấn đề nhất quán thời gian. Mặc dù tôi biết mục tiêu của bạn là dự đoán, nhưng nếu bạn muốn khoảng tin cậy hợp lý, bạn sẽ muốn ước tính các lỗi tiêu chuẩn mạnh mẽ (ít nhất là).
Jason Morgan

@JVM rõ ràng là tôi đã không giải thích rõ bản thân mình. Tôi đã thêm một câu trả lời trong câu hỏi.
B_Miner

t=0S>0P(TTôi>S+x|FS)

Câu trả lời:


1

Cảm ơn bạn đã làm rõ, B_Miner. Tôi không dự đoán nhiều về bản thân mình, vì vậy hãy lấy những gì tiếp theo với một nhúm muối. Đây là những gì tôi sẽ làm ít nhất là một lần cắt đầu tiên tại dữ liệu.

  • Đầu tiên, xây dựng và ước tính một mô hình giải thích các TVC của bạn. Thực hiện tất cả các xác nhận chéo, kiểm tra lỗi, v.v., để đảm bảo bạn có một mô hình hợp lý cho dữ liệu.
  • Thứ hai, xây dựng và ước tính một mô hình sống sót (của bất kỳ hương vị nào). Thực hiện tất cả các xác nhận chéo, kiểm tra lỗi, để đảm bảo mô hình này cũng hợp lý.
  • Thứ ba, giải quyết một phương pháp sử dụng các dự báo từ mô hình TVC làm cơ sở dự báo rủi ro của việc khuấy đảo và bất cứ điều gì bạn muốn. Một lần nữa, xác minh rằng các dự đoán là hợp lý bằng cách sử dụng mẫu của bạn.

Khi bạn có một mô hình mà bạn cho là hợp lý, tôi sẽ khuyên bạn nên bootstrapping dữ liệu như một cách để kết hợp lỗi trong mô hình TVC đầu tiên vào mô hình thứ hai. Về cơ bản, áp dụng các bước 1-3 N lần, mỗi lần lấy mẫu bootstrap từ dữ liệu và tạo ra một bộ dự báo. Khi bạn có số lượng dự báo hợp lý, hãy tóm tắt chúng theo bất kỳ cách nào bạn nghĩ là phù hợp với nhiệm vụ của bạn; ví dụ: cung cấp rủi ro trung bình của giao dịch cho từng hồ sơ cá nhân hoặc đồng biến quan tâm cũng như khoảng tin cậy 95%.


@JVM. Tôi có đọc chính xác cho bạn rằng đề xuất của bạn là tùy chọn giải pháp cuối cùng của tôi ở trên không (trong bản cập nhật cuối cùng). Rằng bạn phát triển các mô hình để dự báo từng Z (TVC) sẽ sử dụng trong mô hình sống sót thực tế?
B_Miner

2

Như tôi thấy, có hai mô hình phân tích sinh tồn có thể được sử dụng. Khung hồi quy Cox cho phép các biến số thời gian khác nhau và sẽ đưa ra ước tính về rủi ro hủy bỏ dựa trên bất kỳ tập hợp cụ thể nào liên quan đến mức độ hủy trung bình. Khung glm với các lỗi Poisson cũng là một mô hình mối nguy theo tỷ lệ và đặc biệt phù hợp với các khoảng rời rạc. JVM đã chỉ ra rằng có lỗi tiềm ẩn trong việc sử dụng dữ liệu không đầy đủ trong tháng hiện tại, nhưng ý nghĩa tôi nhận được là bạn muốn một ước tính có điều kiện dựa trên giá trị mới nhất của biến số đồng biến hoặc tập hợp. Mô tả tốt hơn về tình hình dữ liệu có thể mang lại các ví dụ hoạt động tốt hơn ....

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.