Tôi có dữ liệu bán hàng lịch sử từ một tiệm bánh (hàng ngày, hơn 3 năm). Bây giờ tôi muốn xây dựng một mô hình để dự đoán doanh số trong tương lai (sử dụng các tính năng như ngày trong tuần, biến thời tiết, v.v.).
Làm thế nào tôi nên chia dữ liệu cho phù hợp và đánh giá các mô hình?
- Có cần phải là một đào tạo theo thời gian / xác nhận / phân tách thử nghiệm?
- Sau đó tôi có thể điều chỉnh siêu tham số với tập xác thực và xác thực không?
- Là (lồng nhau) xác nhận chéo là một chiến lược tồi cho một vấn đề chuỗi thời gian?
EDIT
Đây là một số liên kết tôi đã gặp sau khi theo URL được đề xuất bởi @ ene100:
- Rob Hyndman mô tả "nguồn gốc dự báo cán" trong lý thuyết và trong thực tế (với mã R)
- các thuật ngữ khác cho nguồn gốc dự báo cán là "tối ưu hóa đi bộ" ( ở đây hoặc ở đây ), "đường chân trời lăn" hoặc "nguồn gốc di chuyển"
- Dường như những kỹ thuật này sẽ không được tích hợp vào scikit-learn trong tương lai gần, bởi vì nhu cầu và tính chuyên môn của các kỹ thuật này không rõ ràng (được nêu ở đây ).
Và đây là một gợi ý khác để xác nhận chéo chuỗi thời gian.