Dự báo Poisson, độ chính xác và khoảng dự đoán

Tôi đang cố gắng dự báo Poissondữ liệu, được chia thành các nhóm 1-26 months of data, tùy thuộc vào nhóm. Dữ liệu gộp 65% has a value of 0và 25% a value of 1. Tôi không thể tìm thấy bất kỳ xu hướng hoặc tính thời vụ nào, vì vậy tôi bắt đầu thử nghiệm một vài mô hình trạm khác nhau. Moving average (3), Moving Average (6), Simple Exponential Smoothing, NaïveVà Simple Mean.

Tôi cần dự báo trước 1-6 tháng và sử dụng MAD, MSEvà RMSEđể kiểm tra độ chính xác của các mô hình. Có vẻ như chính xác nhất là Nghĩa trung bình, với một RMSE of 1và một MAD of 0,638. Tôi nghĩ rằng điều này thực sự cao nhưng tôi không biết làm thế nào để làm điều này.

Có phương pháp dự báo nào tôi không nghĩ về điều đó có thể tốt hơn không? Có phải tôi đang tìm kiếm một cái gì đó quá mức?

Điều duy nhất tôi có thể tìm thấy về các khoảng dự đoán là F+tsvà F-tsvới Fdự báo, tlà phân phối t alfa (n-2)và svới độ lệch chuẩn. Nó không nghĩ rằng đó là một nguồn thực sự đáng tin cậy nhưng vì tôi không thể tìm thấy bất cứ điều gì khác, tôi không chắc chắn về cách thiết lập các khoảng dự đoán đó. Phương pháp này có đúng không?

Tôi không có R để sử dụng. Tôi cần phải tự làm điều đó.

— R. Trắng
nguồn

Bạn có cái được gọi là nhu cầu không liên tục , nghĩa là một chuỗi thời gian nhu cầu được đặc trưng bởi "nhiều" số không. (Nếu chuỗi thời gian của bạn không phải là nhu cầu mỗi se, hầu hết những gì sau đây vẫn sẽ được áp dụng.) Vì vậy, một tìm kiếm trên web cho "dự báo nhu cầu không liên tục" sẽ hữu ích. Teunter và Duncan (2009, JORS) đưa ra một cái nhìn tổng quan về các phương pháp dự báo nhu cầu không liên tục.

Phương pháp tiêu chuẩn dự báo nhu cầu không liên tục là phương pháp của Croston. Sử dụng làm mịn theo cấp số nhân trong các khoảng thời gian giữa các nhu cầu và trên các kích thước nhu cầu khác không riêng biệt . Dự báo điểm sau đó là tỷ lệ của nhu cầu khác không được làm mịn với khoảng giữa các nhu cầu được làm mịn. Syntetos và Boylan (2001, IJPE) lưu ý rằng Croston hơi thiên vị và đề xuất sửa đổi, nhưng điều này thường không tạo ra nhiều sự khác biệt trong thực tế.

Một thay thế là các mô hình trung bình di chuyển tự động số nguyên (INARMA), điều chỉnh các mô hình chuỗi thời gian ARIMA tiêu chuẩn. Maryam Mohammadipour đã viết một luận án về những điều này.

Cá nhân tôi có nghi ngờ lớn về tính hữu ích của dự báo điểm kỳ vọng như vậy. Một chuỗi thời gian của 1 nhu cầu trong mỗi khoảng thời gian khác có kỳ vọng là 0,5 ... cũng như chuỗi thời gian là 2 nhu cầu trong mỗi khoảng thời gian thứ tư ... và cứ thế - mặc dù những điều này, tất nhiên, ngày càng ít Poisson-y . Tôi cho rằng việc hiểu toàn bộ phân phối nhu cầu trong tương lai (và dự đoán) sẽ hữu ích hơn nhiều. Vì vậy, tôi hoan nghênh bạn tìm kiếm khoảng dự đoán!

Tuy nhiên, công thức bạn tìm thấy chỉ áp dụng cho việc làm mịn theo cấp số nhân trên dữ liệu liên tục , thông qua mô hình ARIMA SES là tối ưu cho. Vì vậy, không thể áp dụng để đếm dữ liệu. Tôi muốn đề xuất rằng bạn nên dự đoán điểm của mình và sử dụng các lượng tử của phân phối Poisson với tham số . Điều này vẫn bỏ qua độ không đảm bảo ước tính tham số (cùng với độ không đảm bảo lựa chọn mô hình, v.v.), nhưng đó là một khả năng đơn giản và có khả năng tốt hơn công thức bạn có. $\alpha(n-2)$ $\hat{y}$ $\lambda=\hat{y}$

Shenstone và Hyndman (2005, JoF) lưu ý rằng không có mô hình ngẫu nhiên nhất quán nào mà phương pháp của Croston là tối ưu - tất cả các mô hình ứng cử viên là (1) liên tục, không rời rạc và (2) có thể mang lại giá trị âm. Tuy nhiên, đối với những mô hình ứng cử viên đó, Shenstone và Hyndman cung cấp các khoảng dự đoán.

Cuối cùng, một lời cảnh báo: không sử dụng MAD để đánh giá tính chính xác của dự báo dữ liệu đếm, đặc biệt là không cho các nhu cầu không liên tục. MAD dự kiến được tối thiểu hóa bởi trung vị phân phối trong tương lai của bạn, không phải ý nghĩa của nó và nếu bạn viết rằng 65% dữ liệu của bạn là số không, thì trung vị bằng 0 ... ngụ ý rằng bạn có thể sẽ nhận được MAD thấp nhất bằng một căn hộ không dự báo, đó là thiên vị xấu và có khả năng vô dụng. Đây là một bài trình bày tôi đã trình bày tại Hội nghị quốc tế năm ngoái về Dự báo về vấn đề này. Hoặc nhìn vào Morlidge (2015, Tầm nhìn xa) .

Phần cuối cùng của việc tự quảng cáo không biết xấu hổ: Tôi có một bài viết trong IJF (Kolassa, 2016) trong đó xem xét dự báo dữ liệu đếm khối lượng thấp (chủ yếu là không liên tục), ở các biện pháp chính xác khác nhau và các phương pháp dự báo khác nhau, bao gồm cả các mô hình Poisson khác nhau. Điều này có thể hữu ích cho bạn.

— Stephan Kolass
nguồn

Cảm ơn vì phản ứng Stephan. Bạn cung cấp cho tôi rất nhiều kiến thức và hiểu biết mới, tôi hoàn toàn xoay sở. Tôi rất muốn một bản PDF của bản thảo của bạn, tôi nghĩ nó sẽ thực sự hữu ích

— R. White

Một câu hỏi khác, nếu bạn không phiền. bài viết này mô tả cách tôi nên kiểm tra tính không liên tục trong dữ liệu của mình. Bây giờ tôi nhận thấy rất nhiều trung vị của qimỗi nhóm có giá trị là 1. Thấp hơn là không thực sự có thể vì vậy sẽ cho rằng hầu hết các nhóm của tôi không liên tục, phải không?

— R. White

Sự phân loại đó là mới đối với tôi. Nó chắc chắn không phổ biến trong các tài liệu học thuật. Tuy nhiên, tôi biết các tác giả của bài báo đó và họ thường biết họ đang làm gì. Tôi khuyên bạn nên thử các phương pháp không liên tục và không liên tục trên dữ liệu của mình và xem phương pháp nào hoạt động tốt nhất - sau đó xem liệu điều đó có liên quan gì đến các tiêu chí được đưa ra trong bài viết của SAS không. Syntetos & Boylan (2005) và Boylan et al. (2008) đưa ra phân loại thay thế.

— Stephan Kolassa

Nhu cầu không liên tục là khó dự báo. Vấn đề là sự khác biệt giữa nhu cầu bằng không và nhu cầu khác không lớn (tương đối!) - và chúng ta thường không biết khi nào nhu cầu khác không sẽ xảy ra. Tôi đề nghị bạn nên chạy một vài mô phỏng. Mô phỏng các biến ngẫu nhiên Poisson và kiểm tra RMSE bạn nhận được khi dự báo kỳ vọng (đã biết!). Điều này mô phỏng tình huống mà bạn biết nhu cầu trung bình cao như thế nào , nhưng bạn không biết khi nào nhu cầu sẽ xảy ra. Bạn có thể sẽ thấy rằng RMSE là khá lớn.

— Stephan Kolassa

Điểm mấu chốt: trừ khi bạn có thể dự báo khi nào nhu cầu sẽ xảy ra, nhu cầu không liên tục chỉ khó dự báo. Ngoài ra, nếu bạn dự báo nhu cầu đó sẽ xảy ra trong khoảng thời gian , nhưng nó không xảy ra trong giai đoạn , mà có thể được khá OK cho các quy trình dự báo tốn của bạn - nhưng RMSE và các biện pháp lỗi khác sẽ vẫn tính này như là một thất bại. Đã có ý tưởng của Kourentze (2014 - được trích dẫn trong bài viết của tôi) về các biện pháp lỗi dựa vào dự báo tích lũy và yêu cầu xử phạt loại "lỗi thời gian" này ít mạnh hơn "lỗi thời gian" lớn hơn.

t

$t$

t + 1

$t+1$

— Stephan Kolassa