Tôi sẽ không đề xuất cách tiếp cận được sử dụng bởi Neal et al. . Dữ liệu của họ là duy nhất vì hai lý do:
Họ đang làm việc với dữ liệu thực phẩm, thường dày đặc hơn và ổn định hơn so với dữ liệu bán lẻ sản phẩm bán lẻ khác. Một địa điểm nhất định sẽ bán hàng chục hộp sữa hoặc gói trứng mỗi tuần và sẽ bán những sản phẩm tương tự trong nhiều thập kỷ, so với thời trang hoặc phụ tùng xe hơi, nơi không có gì lạ khi bán một mặt hàng duy nhất cứ sau 3 hoặc 4 tuần, và dữ liệu có sẵn chỉ trong một hoặc hai năm.
Họ đang dự báo cho các kho không phải cửa hàng. Một kho duy nhất bao gồm nhiều cửa hàng, vì vậy dữ liệu của họ thậm chí còn dày đặc hơn mức trung bình. Trong thực tế, một kho thường được sử dụng như một mức tổng hợp / nhóm tự nhiên cho các cửa hàng, vì vậy về cơ bản chúng đã thực hiện một nhóm dữ liệu lưu trữ.
Do tính chất của dữ liệu của họ, họ có thể thoát khỏi việc lập mô hình chuỗi thời gian riêng lẻ trực tiếp. Nhưng hầu hết dữ liệu của các nhà bán lẻ sẽ quá thưa thớt ở cấp độ sku / cửa hàng riêng lẻ để họ loại bỏ điều đó.
Như zbicyclist đã nói, vấn đề này thường được tiếp cận bằng cách sử dụng dự báo phân cấp hoặc đa âm . Tất cả các gói dự báo nhu cầu thương mại đều sử dụng một số hình thức dự báo phân cấp
Ý tưởng là nhóm các sản phẩm và cửa hàng thành các sản phẩm và khu vực tương tự, theo đó các dự báo tổng hợp được tạo ra và được sử dụng để xác định tính thời vụ và xu hướng chung, sau đó được điều chỉnh theo cách tiếp cận từ trên xuống với các dự báo cơ sở được tạo cho từng sku riêng lẻ / cửa hàng kết hợp.
Bên cạnh thách thức zbicyclist đã đề cập, một vấn đề lớn hơn là việc tìm ra các nhóm sản phẩm và cửa hàng tối ưu là một nhiệm vụ không hề nhỏ, đòi hỏi sự kết hợp giữa chuyên môn về miền và phân tích thực nghiệm. Các sản phẩm và cửa hàng thường được nhóm lại với nhau theo các phân cấp phức tạp (Theo bộ phận, nhà cung cấp, nhãn hiệu, v.v. cho các sản phẩm, theo vùng, khí hậu, kho, v.v ... cho vị trí) sau đó được đưa vào thuật toán dự báo cùng với doanh số lịch sử dữ liệu chính nó.
Giải quyết các ý kiến meraxes
Làm thế nào về các phương pháp được sử dụng trong Cuộc thi Kaggle Dự báo bán hàng tạp hóa Corporación Favourita, nơi họ cho phép các người mẫu học hỏi từ lịch sử bán hàng của một số sản phẩm (có thể không liên quan), mà không thực hiện bất kỳ nhóm rõ ràng nào? Đây vẫn là một cách tiếp cận hợp lệ?
Họ đang thực hiện việc nhóm một cách ngầm định bằng cách sử dụng cửa hàng, vật phẩm, gia đình, lớp, cụm làm các tính năng phân loại.
Tôi vừa đọc qua một phần của Rob Hyndman về dự báo phân cấp. Dường như với tôi, thực hiện một cách tiếp cận từ trên xuống cung cấp các dự báo đáng tin cậy cho các mức tổng hợp; tuy nhiên, nó có nhược điểm rất lớn là mất thông tin do tổng hợp có thể ảnh hưởng đến dự báo cho các nút ở mức dưới cùng. Nó cũng có thể "không thể nắm bắt và tận dụng các đặc điểm của từng chuỗi như động lực thời gian, các sự kiện đặc biệt".
Ba điểm liên quan đến điều này:
- Nhược điểm mà anh ta chỉ ra phụ thuộc vào việc phân nhóm dữ liệu. Nếu bạn tổng hợp tất cả các sản phẩm và cửa hàng, thì có, đây sẽ là một vấn đề. Ví dụ, tổng hợp tất cả các cửa hàng từ tất cả các khu vực sẽ làm vấy bẩn bất kỳ tính thời vụ cụ thể của khu vực. Nhưng bạn chỉ nên tổng hợp theo nhóm có liên quan, và như tôi đã chỉ ra, điều này sẽ đòi hỏi một số phân tích và thử nghiệm để tìm.
- Trong trường hợp cụ thể của nhu cầu bán lẻ, chúng tôi không lo lắng về việc "mất thông tin do tổng hợp" bởi vì chuỗi thời gian ở các nút dưới cùng (ví dụ SKU / Cửa hàng) chứa rất ít thông tin, đó là lý do tại sao chúng tôi tổng hợp chúng lên cao hơn cấp độ ở nơi đầu tiên.
- Đối với SKU / lưu trữ các sự kiện cụ thể, cách chúng tôi tiếp cận nó trong nhóm của tôi là loại bỏ các hiệu ứng cụ thể của sự kiện trước khi tạo dự báo và sau đó thêm chúng trở lại sau, sau khi dự báo được tạo. Xem ở đây để biết chi tiết.