Là bất kỳ hợp lý (lý thuyết, đáng kể, thống kê) của họ để lựa chọn cho mô hình học máy hoặc mô hình nguy hiểm khi mô hình hóa khách hàng (hoặc nói chung hơn, sự kiện xảy ra)?
Là bất kỳ hợp lý (lý thuyết, đáng kể, thống kê) của họ để lựa chọn cho mô hình học máy hoặc mô hình nguy hiểm khi mô hình hóa khách hàng (hoặc nói chung hơn, sự kiện xảy ra)?
Câu trả lời:
Tôi nghĩ rằng câu hỏi của bạn có thể được xác định thêm. Sự khác biệt đầu tiên cho các mô hình khuấy là giữa việc tạo
(1) mô hình nhị phân (hoặc đa lớp nếu có nhiều loại khuấy) để ước tính xác suất khách hàng rời trong hoặc theo một điểm tương lai nhất định (ví dụ: 3 tháng tới)
(2) mô hình kiểu sống sót tạo ra ước tính về rủi ro tiêu hao mỗi thời kỳ (giả sử mỗi tháng cho năm tiếp theo)
Điều nào trong hai điều này là đúng cho trường hợp của bạn phụ thuộc vào việc sử dụng mô hình. Nếu bạn thực sự muốn hiểu rủi ro tiêu hao theo thời gian và có lẽ hiểu cách các biến số (có thể thay đổi theo thời gian) tương tác với thời gian thì một mô hình sinh tồn là phù hợp. Đối với nhiều mô hình khách hàng, tôi thích sử dụng các mô hình nguy hiểm thời gian riêng biệt cho mục đích này vì thời gian thường rời rạc trong cơ sở dữ liệu và ước tính nguy cơ là xác suất của sự kiện. Hồi quy Cox là một lựa chọn phổ biến khác nhưng thời gian được coi là liên tục (hoặc thông qua điều chỉnh các mối quan hệ) nhưng về mặt kỹ thuật không phải là một xác suất.
Đối với hầu hết các mô hình khuấy đảo, nơi một công ty quan tâm đến việc nhắm mục tiêu x% số khách hàng đó có nguy cơ cao nhất và cơ sở dữ liệu được ghi mỗi khi chiến dịch nhắm mục tiêu khởi chạy, tùy chọn nhị phân (hoặc đa lớp) thường là cần thiết.
Sự lựa chọn thứ hai là làm thế nào để ước tính các mô hình. Bạn có sử dụng mô hình thống kê truyền thống như hồi quy logistic cho mô hình nhị phân (đa lớp) hoặc thuật toán học máy (ví dụ: rừng ngẫu nhiên). Sự lựa chọn dựa trên cơ sở nào đưa ra mô hình chính xác nhất và mức độ dễ hiểu là bắt buộc. Đối với các mô hình nguy hiểm thời gian riêng biệt, hồi quy logistic thường được sử dụng với các spline để giới thiệu các hiệu ứng phi tuyến tính của thời gian. Điều này cũng có thể được thực hiện với các mạng thần kinh và nhiều loại thuật toán ML khác vì việc thiết lập chỉ đơn giản là giám sát việc học với bộ dữ liệu "thời gian cá nhân". Hơn nữa, hồi quy cox có thể phù hợp với các thuật toán truyền thống như SAS Proc phreg hoặc R coxph (). Thuật toán học máy GBM cũng phù hợp với hồi quy cox với hàm mất đã chọn. Như đã đề cập,
Trước hết tôi sẽ làm rõ chính xác nơi bạn phân biệt giữa máy học và mô hình nguy hiểm. Theo hiểu biết của tôi, tài liệu ml phân biệt giữa các mô hình tham số và không tham số (trong số những người khác).
Và thứ hai, bạn cần mô hình để làm gì? Là nó cho nghiên cứu khoa học hoặc cái gì khác? Trong mọi trường hợp, việc chọn mô hình phù hợp để mô tả dữ liệu của bạn trước hết phụ thuộc vào những gì bạn cần mô hình đó.
Đối với câu hỏi của bạn: Nó phụ thuộc vào mức độ bạn biết về quá trình tạo dữ liệu.
Ví dụ, nếu bạn lấy đồng xu lật hoặc cuộn chết nổi tiếng, bạn có một ý tưởng rất hay về quy trình tạo ra kết quả mong đợi của một thử nghiệm.
Trong trường hợp đó, bạn thực sự muốn sử dụng một ước lượng tham số (bayesian hoặc thường xuyên) bởi vì chúng sẽ cung cấp cho bạn một ước tính rất tốt về tham số chưa biết. Hơn nữa, các mô hình này được hiểu rất rõ, có nhiều lợi thế.
Nếu bạn không biết quy trình tạo dữ liệu hoặc bạn không chắc chắn về quy trình đó, bạn không có nhiều sự lựa chọn, sẽ cần ước tính các tham số mô tả dữ liệu từ chính dữ liệu. Nếu bạn quyết định cho cách tiếp cận như vậy, bạn phải chấp nhận rằng các mô hình này có nhược điểm (tùy thuộc vào mô hình cụ thể, v.v.)
Từ hiểu biết của tôi, bạn càng ít biết về một quy trình, bạn sẽ càng cần ước tính từ chính dữ liệu, điều này chắc chắn sẽ có giá.