Mô hình Cox vs hồi quy logistic


15

Hãy nói rằng chúng tôi được đưa ra vấn đề sau:

Dự đoán khách hàng nào có nhiều khả năng ngừng mua hàng tại cửa hàng của chúng tôi trong 3 tháng tới.
Đối với mỗi khách hàng, chúng tôi biết tháng khi một người bắt đầu mua trong cửa hàng của chúng tôi và ngoài ra chúng tôi có nhiều tính năng hành vi trong tổng hợp hàng tháng. Khách hàng lớn tuổi nhất đã mua trong năm mươi tháng; hãy biểu thị thời gian kể từ khi khách hàng bắt đầu mua hàng bằng t ( t[0,50] ). Có thể giả định rằng số lượng khách hàng là rất lớn. Nếu một khách hàng ngừng mua trong ba tháng và sau đó quay lại, thì anh ta được coi là một khách hàng mới để một sự kiện (ngừng mua) chỉ có thể xảy ra một lần.

Hai giải pháp đi vào tâm trí tôi:

Hồi quy logistic - Đối với mỗi khách hàng và mỗi tháng (có thể ngoại trừ 3 tháng gần nhất), chúng tôi có thể nói liệu khách hàng có ngừng mua hay không, vì vậy chúng tôi có thể thực hiện các mẫu lăn với một quan sát cho mỗi khách hàng và tháng. Chúng ta có thể sử dụng số tháng kể từ khi bắt đầu như một biến phân loại để có được một số hàm tương đương cơ bản.

Mô hình Cox mở rộng - Vấn đề này cũng có thể được mô hình hóa bằng mô hình Cox mở rộng. Có vẻ như vấn đề này phù hợp hơn với phân tích sinh tồn.

Câu hỏi: những lợi thế của phân tích sinh tồn trong các vấn đề tương tự là gì? Phân tích sinh tồn được phát minh vì một số lý do, vì vậy phải có một số lợi thế nghiêm trọng.

Kiến thức của tôi về phân tích sinh tồn không sâu lắm và tôi nghĩ rằng hầu hết các lợi thế tiềm năng của mô hình Cox cũng có thể đạt được bằng cách sử dụng hồi quy logistic.

  • Tương đương của mô hình Cox phân tầng có thể thu được bằng cách sử dụng tương tác của và biến phân tầng. t
  • Mô hình Cox tương tác có thể thu được bằng cách lặn dân số vào một số quần thể phụ và ước tính LR cho mỗi dân số phụ.

Ưu điểm duy nhất tôi thấy là mô hình Cox linh hoạt hơn; ví dụ, chúng ta có thể dễ dàng tính toán xác suất khách hàng sẽ ngừng mua trong 6 tháng.

Câu trả lời:


10

Vấn đề với mô hình Cox là nó dự đoán không có gì. "Chặn" (chức năng nguy hiểm cơ bản) trong các mô hình Cox không bao giờ thực sự được ước tính. Hồi quy logistic có thể được sử dụng để dự đoán rủi ro hoặc xác suất cho một số sự kiện, trong trường hợp này: có hay không một đối tượng đến để mua thứ gì đó vào một tháng cụ thể.

Vấn đề với các giả định đằng sau hồi quy logistic thông thường là bạn coi việc quan sát mỗi tháng của mỗi người là độc lập, bất kể đó là cùng một người hay cùng một tháng trong đó các quan sát xảy ra. Điều này có thể nguy hiểm vì một số mặt hàng được mua trong khoảng thời gian hai tháng, do đó, những người quan sát theo tháng có mối tương quan ngược chiều. Thay phiên, một khách hàng có thể được giữ lại hoặc bị mất bởi những trải nghiệm tốt hoặc xấu dẫn đến người liên tiếp theo tháng quan sát có mối tương quan tích cực .

Tôi nghĩ rằng một khởi đầu tốt cho vấn đề dự đoán này là sử dụng phương pháp dự báo nơi chúng ta có thể sử dụng thông tin trước đó để thông báo dự đoán của mình về hoạt động kinh doanh của tháng tới. Một khởi đầu đơn giản cho vấn đề này được điều chỉnh cho một hiệu ứng tụt, hoặc một chỉ số cho dù một đối tượng đã đến trong cuối tháng, như một yếu tố dự báo về việc liệu họ có thể đến đây tháng.


2
Không thể sử dụng hồi quy logistic đa cấp ở đây để giải quyết vấn đề độc lập? Cấp 2 sẽ là khách hàng và cấp 1 sẽ được lặp lại các biện pháp theo thời gian.
Forinstance

1
@AdamO, việc đánh chặn có thể được ước tính và kết hợp với dự đoán về nguy cơ một phần của từng cá nhân, chúng ta có thể tạo ra các đường cong sinh tồn riêng lẻ. Tôi không chắc tại sao bạn nghĩ mô hình Cox có thể dự đoán "không có gì".
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon việc ước tính hàm nguy hiểm cơ sở là một thủ tục phụ trợ (chức năng bước Breslow) phải được thực hiện thứ cấp cho mô hình Cox. Hơn nữa, có sự bất đồng trong việc tính toán các giới hạn không chắc chắn do hiệp phương sai giữa ước tính rủi ro tích lũy và các tham số mô hình là không rõ ràng. Các -method với độc lập giả định và giới hạn Hall và Wellner là những gì tôi sử dụng. δ
AdamO

Đối với mục đích dự đoán, tôi cảm thấy đây không phải là chặn. Không có gì lạ khi kết hợp nhiều ước tính để tạo ra một dự đoán duy nhất và (thật không may và tôi không ủng hộ nó) các khoảng dự đoán không được sử dụng phổ biến hoặc có sẵn.
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon Tôi không nói dự đoán rủi ro có thể thu được từ dữ liệu sinh tồn, tôi nói mô hình Cox không dự đoán rủi ro. Các bước giữa gọi coxphvà nhận ước tính rủi ro là rất nhiều.
AdamO

3

TjjPr(Tj>3)j3

Phân tích tỷ lệ sống còn tính đến thực tế là mỗi khách hàng có thời gian vào nghiên cứu riêng. Do đó, thời gian theo dõi khác nhau giữa các khách hàng không phải là vấn đề.

j


Lưu ý : đây là một bài báo cho thấy rằng, trong một số ràng buộc, cả mô hình logistic và mô hình Cox đều được liên kết.


Cảm ơn về câu trả lời. Nếu SA xử lý kiểm duyệt đúng cách thì có nghĩa là giải pháp LR không xử lý kiểm duyệt đúng cách. Làm thế nào kết quả nó? Tôi vẫn không thể thuyết phục myselft rằng SA tốt hơn cho mục tiêu thời gian cố định. Tôi có thể tìm thấy ở đâu đó bài viết này miễn phí?
Tomek Tarczynski

Y=0

Email của tôi là: tomek.tarczynski @ gmail Cảm ơn bạn rất nhiều!
Tomek Tarczynski

@TomekTarczynski: đã nhận được?
bát giác

Vâng, cảm ơn một lần nữa! Tôi sẽ có thời gian vào ngày mai để đọc nó cẩn thận hơn. Tôi chỉ lướt qua nó và nếu tôi hiểu chính xác thì nó giải quyết một vấn đề hơi khác. Sử dụng sự tương tự của cửa hàng, nó so sánh LR và COX với vấn đề "Xác suất khách hàng sẽ không còn là khách hàng nữa sau số tháng cố định kể từ đầu là gì?"
Tomek Tarczynski

2

Các tài liệu tiếp thị đề xuất một Pareto / NBD ở đây hoặc tương tự. Về cơ bản, bạn giả định việc mua hàng - trong khi họ đang mua - tuân theo phân phối nhị thức âm. Nhưng bạn phải mô hình hóa thời gian khi khách hàng dừng lại. Đó là phần khác.

Pete Fader và Bruce Hardie có một số giấy tờ về điều này, cùng với Abe.

Có một số cách tiếp cận đơn giản hơn đối với Pareto / NBD, thậm chí chỉ cần đếm các giấy tờ khác nhau của Fader và Hardie. KHÔNG sử dụng cách tiếp cận đơn giản hơn trong đó giả định rằng xác suất dừng là không đổi tại mỗi thời điểm - điều đó có nghĩa là khách hàng nặng hơn của bạn có nhiều khả năng bỏ học sớm hơn. Đó là một mô hình đơn giản hơn để phù hợp, nhưng sai.

Tôi đã không phù hợp với một trong những điều này trong một thời gian; xin lỗi để được một chút không đặc hiệu

Đây là một tài liệu tham khảo cho bài báo Abe, trong đó tái hiện vấn đề này dưới dạng Bayes phân cấp.. Nếu tôi đã làm việc trong lĩnh vực này một lần nữa, tôi nghĩ rằng tôi sẽ thử nghiệm phương pháp này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.