Tăng trưởng theo tháng được điều chỉnh theo mùa với tính thời vụ hàng tuần


9

Là một sở thích phụ, tôi đã khám phá chuỗi thời gian dự báo (đặc biệt là sử dụng R).

Đối với dữ liệu của tôi, tôi có số lượt truy cập mỗi ngày, cho mỗi ngày trở lại gần 4 năm. Trong dữ liệu này có một số mẫu riêng biệt:

  1. Thứ Hai-Thứ Sáu có rất nhiều lượt truy cập (cao nhất vào Thứ Hai / Thứ Ba), nhưng ít hơn nhiều vào Thứ Bảy-Chủ Nhật.
  2. Một số thời điểm trong năm giảm (tức là nhiều chuyến thăm ít hơn vào các ngày lễ Hoa Kỳ, mùa hè cho thấy sự tăng trưởng ít hơn)
  3. Tăng trưởng đáng kể qua từng năm

Thật tuyệt khi có thể dự báo một năm sắp tới với dữ liệu này và cũng sử dụng nó để có sự tăng trưởng theo từng tháng được điều chỉnh theo mùa. Điều chính khiến tôi thất vọng với chế độ xem hàng tháng là:

  • Một số tháng nhất định sẽ có nhiều Mon / Tue hơn các tháng khác (và điều đó cũng không nhất quán theo năm). Do đó, một tháng xảy ra với nhiều ngày trong tuần cần phải được điều chỉnh cho phù hợp.

Việc khám phá các tuần cũng có vẻ khó khăn vì các hệ thống đánh số tuần thay đổi từ 52-53 tùy theo năm và dường như tskhông xử lý được điều đó.

Tôi đang cân nhắc lấy trung bình cho các ngày trong tuần, nhưng đơn vị kết quả hơi lạ (Tăng trưởng trong lượt truy cập trung bình trong tuần) và điều đó sẽ làm mất dữ liệu hợp lệ.

Tôi cảm thấy loại dữ liệu này sẽ phổ biến trong chuỗi thời gian, (ví dụ như sử dụng điện trong tòa nhà văn phòng có thể giống như thế này), có ai có lời khuyên nào về cách mô hình hóa nó, đặc biệt là trong R không?

Dữ liệu tôi đang làm việc khá đơn giản, nó bắt đầu như sau:

            [,1]
2008-10-05 17607
2008-10-06 36368
2008-10-07 40250
2008-10-08 39631
2008-10-09 40870
2008-10-10 35706
2008-10-11 18245
2008-10-12 23528
2008-10-13 48077
2008-10-14 48500
2008-10-15 49017
2008-10-16 50733
2008-10-17 46909
2008-10-18 22467

và tiếp tục như vậy cho đến hiện tại, với xu hướng tăng trưởng chung, một số đợt giảm trong các tuần lễ ở Mỹ và tăng trưởng thường chậm lại trong suốt mùa hè.


Một khía cạnh thú vị khác của dữ liệu là có những sự kiện bất ngờ làm gián đoạn xu hướng tăng trưởng chung trong khoảng thời gian ~ vài tháng. Ngay bây giờ, mặc dù tôi đang ở giai đoạn cố gắng thiết lập đúng thời vụ, tôi bỏ qua khía cạnh đó.
Kyle Brandt

Ngoài ra, hãy sửa cho tôi nếu tôi không sử dụng "tính thời vụ" một cách chính xác. Tôi hiện đang nghĩ về nó một patter trong đơn vị thời gian tôi nói. Vì vậy, "Tính thời vụ hàng tuần" với tôi có nghĩa là "Một mô hình lặp lại mỗi tuần".
Kyle Brandt

Hmm, âm thanh quen thuộc (-;

Xem câu trả lời cho stats.stackexchange.com/questions/14742/ . Có thể là một điểm khởi đầu.
Peter Ellis

Có lẽ tại trung tâm của điều này là sự kết hợp của tuần + năm? Có vẻ như ts(và thậm chí msts) không phù hợp với khoảng thời gian lấy mẫu trong một tuần với khoảng thời gian "tự nhiên" của một năm (Tôi cũng không đoán lịch thực sự). Hoặc, tôi chỉ không hiểu làm thế nào để thực hiện công việc đó ...
Kyle Brandt

Câu trả lời:


5

Tôi mô hình như vậy loại dữ liệu tất cả các thời gian. Bạn cần kết hợp

  • ngày trong tuần
  • hiệu ứng ngày lễ (hiệu ứng chì, đương thời và độ trễ)
  • những ngày đặc biệt trong tháng
  • có lẽ thứ sáu trước ngày lễ hoặc thứ hai sau kỳ nghỉ
  • hiệu ứng hàng tuần
  • hiệu ứng hàng tháng
  • Cấu trúc ARIMA để hiển thị các lỗi nhiễu trắng;
  • et al. .

Phương pháp thống kê được gọi là Mô hình hóa chức năng chuyển giao với thiết lập can thiệp. Nếu bạn muốn chia sẻ dữ liệu của mình một cách riêng tư qua dave@autobox.com hoặc tốt nhất là qua SE, tôi sẽ rất vui mừng khi thực sự cho bạn thấy các chi tiết cụ thể của một mô hình cuối cùng và hơn nữa là khả năng của bạn để tự làm hoặc ít nhất là giúp bạn và những người khác để hiểu những gì cần phải làm và những gì có thể được thực hiện. Trong cả hai trường hợp, bạn trở nên thông minh hơn mà không tốn bất kỳ kho báu nào dù là tiền xu hay thời gian. Bạn có thể đọc một số câu trả lời khác của tôi cho các câu hỏi theo chuỗi thời gian để tìm hiểu thêm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.