Nắm bắt tính thời vụ trong hồi quy bội cho dữ liệu hàng ngày


13

Tôi có dữ liệu bán hàng hàng ngày cho một sản phẩm mang tính thời vụ cao. Tôi muốn nắm bắt tính thời vụ trong mô hình hồi quy. Tôi đã đọc rằng nếu bạn có dữ liệu hàng quý hoặc hàng tháng, trong trường hợp đó bạn có thể tạo 3 và 11 biến giả tương ứng - nhưng tôi có thể xử lý dữ liệu hàng ngày không?

Tôi có ba năm dữ liệu hàng ngày. Các biến độc lập là điểm giá, cờ quảng cáo (có / không) và nhiệt độ. Biến phụ thuộc là doanh số của sản phẩm đó. Tôi không tìm kiếm một mô hình chuỗi thời gian vì tôi đang sử dụng mô hình hồi quy bội.


Bạn có bao nhiêu dữ liệu? Bao nhiêu năm đáng giá? Bạn có dữ liệu về bất cứ điều gì như nhiệt độ? Phần còn lại của mô hình của bạn như thế nào? DV và IV của bạn là gì?
Peter Flom - Phục hồi Monica

Ngoài những gì Peter Flom đã hỏi, bạn đang mô hình hóa dữ liệu của mình dưới dạng chuỗi thời gian đơn biến hay chuỗi thời gian đa biến? Nếu nó là đa biến, bạn có các biến khác không? Những biến thể hiện hành vi theo mùa? nếu vậy thêm biến giả sẽ là không cần thiết. Bạn có thể cung cấp những thông tin bổ sung này?
dự báo

Tôi đã chỉnh sửa câu hỏi của tôi. Bạn có thể vui lòng cung cấp bất kỳ giải pháp. Cảm ơn
Arushi


Tôi hoàn toàn đồng ý với @IrishStat, chúng tôi sẽ không bỏ qua các mô hình chuỗi thời gian, một mô hình khá tốt ngoài đó nắm bắt được tính thời vụ. Tôi sẽ đề nghị bạn có thể kiểm tra mô hình không gian trạng thái làm mịn theo cấp số nhân có khả năng xử lý nhiều tính thời vụ, xu hướng, đồng thời.its độc quyền trong R.you có thể sử dụng gói if dự báo ().
Karthi V

Câu trả lời:


10

@Irishstat trình bày khá nhiều những gì tôi sắp nói, nhưng tôi sẽ đáp lại bằng kinh nghiệm cá nhân của riêng tôi trong việc mô hình hóa các dữ liệu này bằng hồi quy chuỗi thời gian và hồi quy OLS.

Nếu đó là dữ liệu hàng ngày thì tôi sẽ làm như sau:

Tạo một biến giả cho tính thời vụ khác nhau:

  • Để nắm bắt ngày của tính thời vụ trong tuần, hãy tạo 6 biến giả.
  • Để nắm bắt ngày của tháng theo mùa, hãy tạo 30 biến giả
  • Để nắm bắt tháng trong năm, tạo 11 biến giả.

Tạo biến giả cho biến xu hướng:

  • Nếu chuỗi thời gian thể hiện xu hướng tuyến tính, sau đó thêm một biến xu hướng thời gian.

  • Nếu chuỗi thời gian thể hiện xu hướng phi tuyến, hãy thêm biến xu hướng thời gian phi tuyến như bậc hai / khối / log

Thêm các biến độc lập Biến

  • Đây là dữ liệu theo chuỗi thời gian, vì vậy cần chú ý đến các hiệu ứng chì và độ trễ của varibales độc lập. Ví dụ trong ví dụ của bạn, bạn đề cập đến cờ quảng cáo điểm giá, chúng có thể không có tác dụng ngay lập tức đối với phản hồi của bạn, nghĩa là có thể có độ trễ và hiệu ứng phân rã / vĩnh viễn . Vì vậy, ví dụ, nếu chạy một chương trình khuyến mãi hôm nay, bạn có thể có doanh số tăng ngay hôm nay nhưng hiệu quả của việc giảm giá khuyến mãi sau vài ngày. Không có cách nào dễ dàng để mô hình hóa điều này bằng cách sử dụng nhiều hồi quy, bạn sẽ muốn sử dụng mô hình hóa hàm truyền là Parsimonoius và có thể xử lý bất kỳ loại hiệu ứng chì và lag nào. Xem ví dụ này tôi đã đăng trước đó, nơi có sự can thiệp (trong trường hợp giá của bạn) và có sự gia tăng đột ngột, sau đó là hiệu ứng phân rã. Đã nói rằng nếu bạn cómột kiến thức tiên nghiệm về hiệu ứng dẫn và độ trễ, tạo các biến bổ sung trong trường hợp biến giả của bạn trước và sau điểm giá và thay đổi khuyến mãi (có / không).

  • Bạn cũng sẽ cần thêm các biến chỉ báo Ngày lễ di chuyển, ví dụ như Irishstat chỉ ra rằng bạn muốn thêm Lễ Phục sinh / Lễ Tạ ơn (ở Hoa Kỳ) đang di chuyển Ngày lễ. Các ngày lễ là ngày cố định sẽ được tự động chăm sóc nếu bạn đang sử dụng chương trình mã hóa giả để nắm bắt tính thời vụ.

  • Ngoài ra, bạn sẽ cần xác định các ngoại lệ như phụ gia / xung (sự kiện một lần) hoặc thay đổi cấp độ (dịch chuyển vĩnh viễn) và thêm chúng làm biến hồi quy. Xác định các ngoại lệ trong hồi quy bội cho dữ liệu chuỗi thời gian là gần như không thể; bạn sẽ cần các phương pháp phát hiện ngoại lệ theo chuỗi thời gian như quy trình của Tsay hoặc quy trình của Chen và Liu được tích hợp trong phần mềm như AUTOBOX, SPSS, SAS hoặc tsoutliergói trong R.

Vấn đề tiềm ẩn:

Sau đây là những vấn đề bạn sẽ gặp phải nếu bạn mô hình hóa dữ liệu chuỗi thời gian bằng cách sử dụng hồi quy bội OLS.

  • Lỗi có thể tự động tương quan. Xem trang web tốt đẹp này và trang web này giải thích vấn đề này. Một cách để tránh điều này là sử dụng phương pháp bình phương tối thiểu (GLS) hoặc ARIMAX tổng quát so với hồi quy bội OLS, trong đó bạn có thể sửa lỗi cho tương quan tự động.
  • Mô hình OLS sẽ không phải là Parsimonoius. Bạn có6+30+11=47 biến giả cho tính thời vụ.
  • Bằng cách sử dụng các biến giả, bạn cho rằng tính thời vụ của bạn là xác định tức là nó không thay đổi theo thời gian. Vì bạn chỉ có 3 năm dữ liệu, tôi sẽ không lo lắng về điều đó, nhưng vẫn đáng để vẽ cốt truyện và xem liệu tính thời vụ không thay đổi.

Và còn nhiều nhược điểm nữa của việc sử dụng hồi quy bội. Nếu dự đoán là quan trọng hơn với bạn thì tôi sẽ giữ ít nhất 6 tháng dữ liệu và kiểm tra khả năng dự đoán của hồi quy bội của bạn. Nếu mục tiêu chính của bạn là giải thích mối tương quan giữa các biến độc lập, thì tôi sẽ thận trọng khi sử dụng nhiều hồi quy và thay vào đó tôi sẽ sử dụng cách tiếp cận chuỗi thời gian như ARIMAX / GLS.

Nếu bạn quan tâm, bạn có thể tham khảo văn bản xuất sắc của Pankratz , để biết chức năng chuyển và mô hình hồi quy động. Để dự báo chuỗi thời gian chung, vui lòng tham khảo Makridakis et al . Ngoài ra, một văn bản tham khảo tốt sẽ được Diebold cho dự báo dựa trên hồi quy và chuỗi thời gian.


Tóm tắt rất hay NHƯNG tôi muốn nói thêm rằng bạn đã bỏ qua các hiệu ứng trong tuần và ngày cụ thể trong tháng, ngoài các hiệu ứng cuối tuần có thể xảy ra, tất cả những gì tôi thấy là rất quan trọng. Hơn nữa, hiệu ứng trước sự kiện và sau sự kiện không được bỏ qua. Xem xét các hoạt động xung quanh Lễ Phục Sinh và xung quanh các ngày lễ / sự kiện lớn khác. Thường có một mẫu phản ứng riêng lẻ đòi hỏi phải kết hợp một đặc tả LEAD. Bạn cũng nên lưu ý rằng các tham số có thể và thường thay đổi theo thời gian và người ta cần xác thực giả định về hằng số của tham số.
IrishStat

Cảm ơn @Irishstat. Bạn đúng rồi. Tôi quên bout di chuyển ngày lễ và hiệu ứng chì và lag của họ.
dự báo

2

Những gì bạn cần là một mô hình sẽ kết hợp các hiệu ứng hàng ngày, hiệu ứng hàng tuần, hiệu ứng hàng tháng, hiệu ứng tuần, hiệu ứng ngày, hiệu ứng chì và độ trễ của các ngày lễ, mức độ / bước chuyển không xác định nhưng theo kinh nghiệm, xu hướng thời gian cục bộ, thay đổi xung và xung theo mùa trong khi kết hợp cấu trúc ARIMA và có thể xử lý các thay đổi về tham số và phương sai lỗi theo thời gian. Đây được gọi là Hàm truyền và có thể dễ dàng phục hồi (NHƯNG KHÔNG PHỤ TÙNG) dưới dạng hồi quy tuyến tính bội.

Cụ thể, một chỉ số hàng ngày sẽ mất 6 dự đoán. Nói chung, người ta phải sắp xếp cẩn thận (xác định) loại dự đoán nào là cần thiết. Nếu bạn có nhiều thời gian trong tay, bạn có thể thử nghiệm với một số cấu trúc tôi đã đề cập. Ngoài ra, bạn có thể cần một số phần mềm / tư vấn nâng cao để giúp bạn giải quyết vấn đề của mình trong đời.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.