Sử dụng các công cụ học máy tiêu chuẩn trên dữ liệu bị kiểm duyệt trái

Tôi đang phát triển một ứng dụng dự báo với mục đích là cho phép nhà nhập khẩu dự báo nhu cầu cho các sản phẩm của mình từ mạng lưới nhà phân phối khách hàng. Số liệu bán hàng là một proxy khá tốt cho nhu cầu, miễn là có đủ hàng tồn kho để đáp ứng nhu cầu. Tuy nhiên, khi hàng tồn kho được rút xuống 0, (tình huống chúng tôi đang tìm cách giúp khách hàng tránh), chúng tôi không biết nhiều về việc chúng tôi đã bỏ lỡ mục tiêu. Khách hàng đã thực hiện bao nhiêu doanh số, nếu họ có đủ nguồn cung? Các cách tiếp cận ML dựa trên hồi quy tiêu chuẩn sử dụng Bán hàng làm biến mục tiêu đơn giản sẽ tạo ra các ước tính không thống nhất về mối quan hệ giữa thời gian, các biến mô tả và nhu cầu của tôi.

Mô hình Tobit là cách rõ ràng nhất để tiếp cận vấn đề: http://en.wikipedia.org/wiki/Tobit_model . Tôi đang tự hỏi về sự thích ứng ML của các khu rừng ngẫu nhiên, GBMS, SVM và mạng lưới thần kinh cũng chiếm cấu trúc kiểm duyệt dữ liệu thuận tay trái.

Nói tóm lại, làm cách nào để áp dụng các công cụ học máy vào dữ liệu hồi quy bị kiểm duyệt trái để có được ước tính nhất quán về mối quan hệ giữa các biến phụ thuộc và biến độc lập của tôi? Ưu tiên đầu tiên sẽ là các giải pháp khả dụng trong R, tiếp theo là Python.

Chúc mừng

Aaron

r regression machine-learning censoring

— Aaron
nguồn

Rất thích nhìn thấy một câu trả lời wrt scikit-learn.

— tobip

Trong R, bạn có thể sử dụng cran.r-project.org/web/packages/censReg/censReg.pdf . Tôi thứ hai @tobip về scikit-learn trong Python

— Adrian

Nói tóm lại, làm cách nào để áp dụng các công cụ học máy vào dữ liệu hồi quy bị kiểm duyệt trái để có được ước tính nhất quán về mối quan hệ giữa các biến phụ thuộc và biến độc lập của tôi?

Nếu bạn có thể viết lên một khả năng và lật ký hiệu thành dấu trừ thì bạn có chức năng tự mất có thể được sử dụng cho nhiều mô hình học máy. Trong tăng cường độ dốc, điều này thường được coi là tăng mô hình . Xem ví dụ: Tăng cường thuật toán: Chính quy hóa, Dự đoán và Lắp mô hình .

Để làm ví dụ với mô hình Tobit, hãy xem Gradient Tree Boosted Tobit Model cho giấy Dự đoán mặc định . Phương pháp này nên có sẵn với nhánh scikit-learn được đề cập trong bài báo.

Ý tưởng tương tự được sử dụng cho dữ liệu bị kiểm duyệt phải, ví dụ, gbmvà mboostcác gói trong R cho dữ liệu bị kiểm duyệt phải.

$L2$

— Benjamin Christoffersen
nguồn