@Irishstat trình bày khá nhiều những gì tôi sắp nói, nhưng tôi sẽ đáp lại bằng kinh nghiệm cá nhân của riêng tôi trong việc mô hình hóa các dữ liệu này bằng hồi quy chuỗi thời gian và hồi quy OLS.
Nếu đó là dữ liệu hàng ngày thì tôi sẽ làm như sau:
Tạo một biến giả cho tính thời vụ khác nhau:
- Để nắm bắt ngày của tính thời vụ trong tuần, hãy tạo 6 biến giả.
- Để nắm bắt ngày của tháng theo mùa, hãy tạo 30 biến giả
- Để nắm bắt tháng trong năm, tạo 11 biến giả.
Tạo biến giả cho biến xu hướng:
Nếu chuỗi thời gian thể hiện xu hướng tuyến tính, sau đó thêm một biến xu hướng thời gian.
Nếu chuỗi thời gian thể hiện xu hướng phi tuyến, hãy thêm biến xu hướng thời gian phi tuyến như bậc hai / khối / log
Thêm các biến độc lập Biến
Đây là dữ liệu theo chuỗi thời gian, vì vậy cần chú ý đến các hiệu ứng chì và độ trễ của varibales độc lập. Ví dụ trong ví dụ của bạn, bạn đề cập đến cờ quảng cáo điểm giá, chúng có thể không có tác dụng ngay lập tức đối với phản hồi của bạn, nghĩa là có thể có độ trễ và hiệu ứng phân rã / vĩnh viễn . Vì vậy, ví dụ, nếu chạy một chương trình khuyến mãi hôm nay, bạn có thể có doanh số tăng ngay hôm nay nhưng hiệu quả của việc giảm giá khuyến mãi sau vài ngày. Không có cách nào dễ dàng để mô hình hóa điều này bằng cách sử dụng nhiều hồi quy, bạn sẽ muốn sử dụng mô hình hóa hàm truyền là Parsimonoius và có thể xử lý bất kỳ loại hiệu ứng chì và lag nào. Xem ví dụ này tôi đã đăng trước đó, nơi có sự can thiệp (trong trường hợp giá của bạn) và có sự gia tăng đột ngột, sau đó là hiệu ứng phân rã. Đã nói rằng nếu bạn cómột kiến thức tiên nghiệm về hiệu ứng dẫn và độ trễ, tạo các biến bổ sung trong trường hợp biến giả của bạn trước và sau điểm giá và thay đổi khuyến mãi (có / không).
Bạn cũng sẽ cần thêm các biến chỉ báo Ngày lễ di chuyển, ví dụ như Irishstat chỉ ra rằng bạn muốn thêm Lễ Phục sinh / Lễ Tạ ơn (ở Hoa Kỳ) đang di chuyển Ngày lễ. Các ngày lễ là ngày cố định sẽ được tự động chăm sóc nếu bạn đang sử dụng chương trình mã hóa giả để nắm bắt tính thời vụ.
Ngoài ra, bạn sẽ cần xác định các ngoại lệ như phụ gia / xung (sự kiện một lần) hoặc thay đổi cấp độ (dịch chuyển vĩnh viễn) và thêm chúng làm biến hồi quy. Xác định các ngoại lệ trong hồi quy bội cho dữ liệu chuỗi thời gian là gần như không thể; bạn sẽ cần các phương pháp phát hiện ngoại lệ theo chuỗi thời gian như quy trình của Tsay hoặc quy trình của Chen và Liu được tích hợp trong phần mềm như AUTOBOX, SPSS, SAS hoặc tsoutlier
gói trong R.
Vấn đề tiềm ẩn:
Sau đây là những vấn đề bạn sẽ gặp phải nếu bạn mô hình hóa dữ liệu chuỗi thời gian bằng cách sử dụng hồi quy bội OLS.
- Lỗi có thể tự động tương quan. Xem trang web tốt đẹp này và trang web này giải thích vấn đề này. Một cách để tránh điều này là sử dụng phương pháp bình phương tối thiểu (GLS) hoặc ARIMAX tổng quát so với hồi quy bội OLS, trong đó bạn có thể sửa lỗi cho tương quan tự động.
- Mô hình OLS sẽ không phải là Parsimonoius. Bạn có6 + 30 + 11 = 47 biến giả cho tính thời vụ.
- Bằng cách sử dụng các biến giả, bạn cho rằng tính thời vụ của bạn là xác định tức là nó không thay đổi theo thời gian. Vì bạn chỉ có 3 năm dữ liệu, tôi sẽ không lo lắng về điều đó, nhưng vẫn đáng để vẽ cốt truyện và xem liệu tính thời vụ không thay đổi.
Và còn nhiều nhược điểm nữa của việc sử dụng hồi quy bội. Nếu dự đoán là quan trọng hơn với bạn thì tôi sẽ giữ ít nhất 6 tháng dữ liệu và kiểm tra khả năng dự đoán của hồi quy bội của bạn. Nếu mục tiêu chính của bạn là giải thích mối tương quan giữa các biến độc lập, thì tôi sẽ thận trọng khi sử dụng nhiều hồi quy và thay vào đó tôi sẽ sử dụng cách tiếp cận chuỗi thời gian như ARIMAX / GLS.
Nếu bạn quan tâm, bạn có thể tham khảo văn bản xuất sắc của Pankratz , để biết chức năng chuyển và mô hình hồi quy động. Để dự báo chuỗi thời gian chung, vui lòng tham khảo Makridakis et al . Ngoài ra, một văn bản tham khảo tốt sẽ được Diebold cho dự báo dựa trên hồi quy và chuỗi thời gian.