Hãy nói rằng chúng tôi được đưa ra vấn đề sau:
Dự đoán khách hàng nào có nhiều khả năng ngừng mua hàng tại cửa hàng của chúng tôi trong 3 tháng tới.
Đối với mỗi khách hàng, chúng tôi biết tháng khi một người bắt đầu mua trong cửa hàng của chúng tôi và ngoài ra chúng tôi có nhiều tính năng hành vi trong tổng hợp hàng tháng. Khách hàng lớn tuổi nhất đã mua trong năm mươi tháng; hãy biểu thị thời gian kể từ khi khách hàng bắt đầu mua hàng bằng ( ). Có thể giả định rằng số lượng khách hàng là rất lớn. Nếu một khách hàng ngừng mua trong ba tháng và sau đó quay lại, thì anh ta được coi là một khách hàng mới để một sự kiện (ngừng mua) chỉ có thể xảy ra một lần.
Hai giải pháp đi vào tâm trí tôi:
Hồi quy logistic - Đối với mỗi khách hàng và mỗi tháng (có thể ngoại trừ 3 tháng gần nhất), chúng tôi có thể nói liệu khách hàng có ngừng mua hay không, vì vậy chúng tôi có thể thực hiện các mẫu lăn với một quan sát cho mỗi khách hàng và tháng. Chúng ta có thể sử dụng số tháng kể từ khi bắt đầu như một biến phân loại để có được một số hàm tương đương cơ bản.
Mô hình Cox mở rộng - Vấn đề này cũng có thể được mô hình hóa bằng mô hình Cox mở rộng. Có vẻ như vấn đề này phù hợp hơn với phân tích sinh tồn.
Câu hỏi: những lợi thế của phân tích sinh tồn trong các vấn đề tương tự là gì? Phân tích sinh tồn được phát minh vì một số lý do, vì vậy phải có một số lợi thế nghiêm trọng.
Kiến thức của tôi về phân tích sinh tồn không sâu lắm và tôi nghĩ rằng hầu hết các lợi thế tiềm năng của mô hình Cox cũng có thể đạt được bằng cách sử dụng hồi quy logistic.
- Tương đương của mô hình Cox phân tầng có thể thu được bằng cách sử dụng tương tác của và biến phân tầng.
- Mô hình Cox tương tác có thể thu được bằng cách lặn dân số vào một số quần thể phụ và ước tính LR cho mỗi dân số phụ.
Ưu điểm duy nhất tôi thấy là mô hình Cox linh hoạt hơn; ví dụ, chúng ta có thể dễ dàng tính toán xác suất khách hàng sẽ ngừng mua trong 6 tháng.