Mô hình hóa khách hàng - Mô hình học máy so với mô hình nguy hiểm / sinh tồn


9

Là bất kỳ hợp lý (lý thuyết, đáng kể, thống kê) của họ để lựa chọn cho mô hình học máy hoặc mô hình nguy hiểm khi mô hình hóa khách hàng (hoặc nói chung hơn, sự kiện xảy ra)?


1
Hai - tại sao bạn nghĩ rằng họ là hoặc hoặc?
EngrStudent

Dưới đây là một ví dụ về học máy và phân tích sinh tồn ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=1603631 bị ràng buộc nhiều hơn. IIRC đã có một số công việc được thực hiện trên phân tích sinh tồn dựa trên dữ liệu microarray bằng cách sử dụng các phương pháp tiếp cận máy học (ví dụ: chính quy L1).
Dikran Marsupial


Giáo sư Tibshirani là một ví dụ tuyệt vời cho ý tưởng "Mô hình học máy và mô hình nguy hiểm là rời rạc".
Vách đá AB

3
Nếu bạn theo mô hình học máy nghĩa là xác định nó là dự đoán nhị phân, tôi sẽ nói rằng nếu bạn có số dữ liệu và một định nghĩa rất rõ ràng / truy vấn của bạn là truy vấn nhị phân thì nhị phân là cách để đi. Điều này thường không phải là trường hợp vì vậy sau đó bạn muốn dự đoán một mối nguy hiểm. Xin lỗi nếu tự quảng cáo nhưng tôi đã viết này mảnh để trả lời câu hỏi này mà tôi đã có một năm về trước. Bạn cũng có thể dễ dàng biến các mô hình nguy hiểm thành vấn đề máy học, vì vậy đây là một sự phân đôi giả như đã lưu ý.
ragulpr

Câu trả lời:


10

Tôi nghĩ rằng câu hỏi của bạn có thể được xác định thêm. Sự khác biệt đầu tiên cho các mô hình khuấy là giữa việc tạo

(1) mô hình nhị phân (hoặc đa lớp nếu có nhiều loại khuấy) để ước tính xác suất khách hàng rời trong hoặc theo một điểm tương lai nhất định (ví dụ: 3 tháng tới)

(2) mô hình kiểu sống sót tạo ra ước tính về rủi ro tiêu hao mỗi thời kỳ (giả sử mỗi tháng cho năm tiếp theo)

Điều nào trong hai điều này là đúng cho trường hợp của bạn phụ thuộc vào việc sử dụng mô hình. Nếu bạn thực sự muốn hiểu rủi ro tiêu hao theo thời gian và có lẽ hiểu cách các biến số (có thể thay đổi theo thời gian) tương tác với thời gian thì một mô hình sinh tồn là phù hợp. Đối với nhiều mô hình khách hàng, tôi thích sử dụng các mô hình nguy hiểm thời gian riêng biệt cho mục đích này vì thời gian thường rời rạc trong cơ sở dữ liệu và ước tính nguy cơ là xác suất của sự kiện. Hồi quy Cox là một lựa chọn phổ biến khác nhưng thời gian được coi là liên tục (hoặc thông qua điều chỉnh các mối quan hệ) nhưng về mặt kỹ thuật không phải là một xác suất.

Đối với hầu hết các mô hình khuấy đảo, nơi một công ty quan tâm đến việc nhắm mục tiêu x% số khách hàng đó có nguy cơ cao nhất và cơ sở dữ liệu được ghi mỗi khi chiến dịch nhắm mục tiêu khởi chạy, tùy chọn nhị phân (hoặc đa lớp) thường là cần thiết.

Sự lựa chọn thứ hai là làm thế nào để ước tính các mô hình. Bạn có sử dụng mô hình thống kê truyền thống như hồi quy logistic cho mô hình nhị phân (đa lớp) hoặc thuật toán học máy (ví dụ: rừng ngẫu nhiên). Sự lựa chọn dựa trên cơ sở nào đưa ra mô hình chính xác nhất và mức độ dễ hiểu là bắt buộc. Đối với các mô hình nguy hiểm thời gian riêng biệt, hồi quy logistic thường được sử dụng với các spline để giới thiệu các hiệu ứng phi tuyến tính của thời gian. Điều này cũng có thể được thực hiện với các mạng thần kinh và nhiều loại thuật toán ML khác vì việc thiết lập chỉ đơn giản là giám sát việc học với bộ dữ liệu "thời gian cá nhân". Hơn nữa, hồi quy cox có thể phù hợp với các thuật toán truyền thống như SAS Proc phreg hoặc R coxph (). Thuật toán học máy GBM cũng phù hợp với hồi quy cox với hàm mất đã chọn. Như đã đề cập,


4
(+1) Mặc dù tôi nghĩ nó phụ thuộc vào nhiều thứ hơn bạn đề cập. Xác suất dự đoán khuấy đảo trong vòng 3 tháng có thể được đọc ra từ một mô hình sống sót, và nếu đó là một mô hình tốt có thể là ước tính tốt hơn so với mô hình phù hợp với kết quả nhị phân của churn sau hoặc trước 3 tháng.
Scortchi - Tái lập Monica

1
Làm thế nào người ta có thể dự đoán xác suất khuấy đảo trong vòng ba tháng bằng cách sử dụng rừng ngẫu nhiên, hồi quy logistic hoặc mô hình C5.0? Điều này thậm chí có thể?
Seanosapien

@Seanosapien, bạn có thể lấy dữ liệu về số liệu của mình với thông tin về thời điểm mỗi người dùng rời đi và cho mỗi người dùng chỉ định 1 nếu họ khởi động trước 3 tháng và 0 nếu họ không khởi động trước 3 tháng. Sau đó, bạn có thể phù hợp, ví dụ mô hình hồi quy logistic trên dữ liệu nhị phân và gán xác suất cho người dùng mới dựa trên mô hình phù hợp
Kdawg

@Kdawg Cảm ơn. Tôi đã cố gắng tìm ra một cách để thiết kế một bộ dữ liệu để mô hình hóa trong tâm trí.
Seanosapien

-2

Trước hết tôi sẽ làm rõ chính xác nơi bạn phân biệt giữa máy học và mô hình nguy hiểm. Theo hiểu biết của tôi, tài liệu ml phân biệt giữa các mô hình tham số và không tham số (trong số những người khác).

Và thứ hai, bạn cần mô hình để làm gì? Là nó cho nghiên cứu khoa học hoặc cái gì khác? Trong mọi trường hợp, việc chọn mô hình phù hợp để mô tả dữ liệu của bạn trước hết phụ thuộc vào những gì bạn cần mô hình đó.

Đối với câu hỏi của bạn: Nó phụ thuộc vào mức độ bạn biết về quá trình tạo dữ liệu.

Ví dụ, nếu bạn lấy đồng xu lật hoặc cuộn chết nổi tiếng, bạn có một ý tưởng rất hay về quy trình tạo ra kết quả mong đợi của một thử nghiệm.

Trong trường hợp đó, bạn thực sự muốn sử dụng một ước lượng tham số (bayesian hoặc thường xuyên) bởi vì chúng sẽ cung cấp cho bạn một ước tính rất tốt về tham số chưa biết. Hơn nữa, các mô hình này được hiểu rất rõ, có nhiều lợi thế.

Nếu bạn không biết quy trình tạo dữ liệu hoặc bạn không chắc chắn về quy trình đó, bạn không có nhiều sự lựa chọn, sẽ cần ước tính các tham số mô tả dữ liệu từ chính dữ liệu. Nếu bạn quyết định cho cách tiếp cận như vậy, bạn phải chấp nhận rằng các mô hình này có nhược điểm (tùy thuộc vào mô hình cụ thể, v.v.)

Từ hiểu biết của tôi, bạn càng ít biết về một quy trình, bạn sẽ càng cần ước tính từ chính dữ liệu, điều này chắc chắn sẽ có giá.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.