Dự đoán thời gian tốt nhất của cuộc gọi

Tôi có bộ dữ liệu bao gồm một nhóm khách hàng ở các thành phố khác nhau của California, thời gian gọi cho từng khách hàng và trạng thái cuộc gọi (Đúng nếu khách hàng trả lời cuộc gọi và Sai nếu khách hàng không trả lời).

Tôi phải tìm một thời điểm thích hợp để gọi cho khách hàng trong tương lai để xác suất trả lời cuộc gọi cao. Vì vậy, chiến lược tốt nhất cho vấn đề này là gì? Tôi có nên coi đó là một vấn đề phân loại mà giờ (0,1,2, ... 23) là các lớp không? Hay tôi nên coi nó như một nhiệm vụ hồi quy mà thời gian là một biến liên tục? Làm thế nào tôi có thể chắc chắn rằng xác suất trả lời cuộc gọi sẽ cao?

Bất kỳ trợ giúp sẽ được đánh giá cao. Nó cũng sẽ là tuyệt vời nếu bạn giới thiệu cho tôi các vấn đề tương tự.

Dưới đây là một ảnh chụp nhanh của dữ liệu.

— Hamid Mahdavian
nguồn

Sean Owen, nhiệm vụ đã diễn ra như thế nào? Bây giờ tôi đang cố gắng giải quyết một vấn đề tương tự và rất thích nghe kinh nghiệm của bạn - không có nhiều tài nguyên trong chủ đề này trên web. Cảm ơn trước!

— Dominika

Câu trả lời:

Bạn thực sự có thể gặp phải vấn đề nếu bạn mô hình hóa nó như một vấn đề hồi quy mà không có một chuyển đổi phù hợp. Chẳng hạn, chúng tôi biết rằng hầu hết các cuộc gọi có thể được trả lời vào ban ngày và ít hơn vào ban đêm và sáng sớm. Hồi quy tuyến tính sẽ gặp khó khăn vì mối quan hệ có khả năng là đường cong chứ không phải tuyến tính. Vì lý do tương tự, coi đây là một nhiệm vụ phân loại với hồi quy logistic cũng sẽ có vấn đề.

Theo đề xuất của những người trả lời khác, việc phân loại lại dữ liệu của bạn thành các khoảng thời gian sẽ giúp ích và trước tiên tôi khuyên bạn nên thử một cái gì đó như cây quyết định hoặc rừng ngẫu nhiên.

Tất cả đã nói, đây có thể là một trường hợp cho thống kê mô tả đơn giản. Nếu bạn vẽ tỷ lệ các cuộc gọi được trả lời theo thời gian trong ngày (chia theo thành phố hoặc bất kỳ nhân khẩu học nào khác), thì có thời gian tốt nhất rõ ràng không? Nếu vậy, tại sao làm phức tạp mọi thứ với một mô hình?

— HEITZ
nguồn

Bạn có thể thử như sau:

Chia ngày thành nhiều phần - sáng sớm, sáng, trưa, chiều, tối, tối muộn, đêm, v.v.
Chỉ định ranh giới thời gian cho từng phần trong ngày, ví dụ buổi trưa có thể là 12 giờ tối đến 1 giờ chiều.
Tạo 3 nhãn mới - "một phần trong ngày để gọi cho khách hàng", với mỗi trường hợp tích cực (trạng thái cuộc gọi = true) gán cho nhãn tương ứng (sáng / trưa / tối). Các nhãn này sẽ ở định dạng được mã hóa một lần, ví dụ: prefer_morning = 0/1, prefer_noon, prefer_evening, v.v.
Xây dựng 3 mô hình để dự đoán liệu khách hàng tiềm năng có thích buổi sáng / trưa / hoặc thời gian buổi tối trong ngày để cuộc gọi thành công hay không.

Ngoài ra, tôi khuyên bạn nên thêm các tính năng bổ sung như nghề nghiệp, giới tính, v.v. vì các tính năng được liệt kê trong bảng (thành phố, v.v.) quá mơ hồ và không cung cấp nhiều thông tin để phân biệt giữa các khách hàng.

EDITED theo gợi ý trong các bình luận:

Khi sử dụng mô hình, mỗi khách hàng tiềm năng sẽ được phân loại là prelike_morning = yes / no, prelike_noon = yes / no và prelike_evening = yes / no. Dựa trên thời gian trong ngày, ví dụ vào buổi sáng, đại lý trung tâm cuộc gọi (hoặc phần mềm) có thể nhận và gọi khách hàng tiềm năng được phân loại trong bộ ưu tiên buổi sáng. Khi đến buổi trưa, phần mềm cuộc gọi sẽ xuất hiện trong danh sách ưu tiên buổi trưa, v.v.

— Sandeep S. Sandhu
nguồn

@ sandeep-s-sandhu Đây là một cách đơn giản để chuyển đổi vấn đề sang vấn đề phân loại khoa học dữ liệu. Nhưng dường như cách tiếp cận này có thể có một số nhược điểm: 1. thông tin nhãn chỉ bao gồm trường hợp tích cực, mất thông tin của trường hợp tiêu cực 2. Một khách hàng chỉ có thể có một trong các nhãn. Trong thực tế, một khách hàng có thể có nhiều hơn một nhãn (nghĩa là tôi thích mọi người gọi cho tôi vào cuối buổi tối hoặc đêm.). Bạn nghĩ sao?

— nkhuyu

@nkhuyu, 1) nhãn cũng bao gồm trường hợp tiêu cực. Tôi nghĩ rằng bạn đã hiểu nhầm câu "Tạo nhãn mới -" một phần trong ngày để gọi cho khách hàng ", cho mỗi trường hợp tích cực (trạng thái cuộc gọi = true)". Bước này dự định tạo một nhãn bổ sung, nhãn ban đầu cho dù cuộc gọi có thành công hay không vẫn như cũ. 2) Có, bạn đã đúng, đã chỉnh sửa câu trả lời để phản ánh điều này.

— Sandeep S. Sandhu

@ sandeep-s-sabdhu Cảm ơn bạn đã phản hồi. Vâng, tôi đã hiểu lầm nó. ĐỒNG Ý. Sau đó, bạn sẽ có hai nhãn (trạng thái cuộc gọi, nhãn mới của bạn). Sau đó, làm thế nào bạn có thể giải quyết vấn đề này? Đây không phải là một vấn đề phân loại thường xuyên.

— nkhuyu

@nkhuyu, cảm ơn bạn đã lưu ý điều này, giờ tôi đã chỉnh sửa và làm rõ điều này trong bước # 4. Mỗi trong số ba mô hình sẽ đưa ra một nhóm khách hàng tiềm năng sẽ chọn cuộc gọi cho thời gian cụ thể đó trong ngày, trung tâm cuộc gọi sử dụng điều này để ưu tiên các cuộc gọi của họ.

— Sandeep S. Sandhu

Bước 1 được theo sau bởi bước 3 và tôi đã gợi ý những điều này để tạo nhãn phù hợp cho việc đào tạo. Truy vấn chính là - "Tôi phải tìm thời điểm thích hợp để gọi ...". Tùy thuộc vào OP để quyết định xem những thứ này nên là buổi sáng / buổi trưa / buổi tối hay nhiều chi tiết hơn như theo giờ.

— Sandeep S. Sandhu

Tôi sẽ sử dụng hồi quy logistic - bạn sẽ cần mẫu mà họ không nhận. Sau đó, tôi sẽ coi giờ là một biến hồi quy giả theo mùa (23 giờ là các biến giả và để một luồng chảy vào đánh chặn).

Nếu bạn không coi nó là một hồi quy giả theo mùa, bạn sẽ phải thực hiện một số biến đổi, bởi vì mối quan hệ sẽ không phải là tuyến tính.

Một số người trước đây đã đề nghị thay thế vào giữa buổi chiều, vv như là một biến phân loại. Đó là một ý tưởng tồi bởi vì bạn có chi tiết và bạn đang mất chi tiết ở đó. Điều đó sẽ có tác dụng tương tự với việc sử dụng tính năng tạo thùng tối ưu để tạo mối quan hệ tuyến tính, nhưng tôi vẫn không nghĩ rằng nó sẽ hoạt động. Hãy thử các hồi quy giả theo mùa.

— MBA Michael Corley LSSBB
nguồn