Google Xu hướng trả về dữ liệu hàng tuần nên tôi phải tìm cách hợp nhất chúng với dữ liệu hàng ngày / hàng tháng của mình.
Những gì tôi đã làm cho đến nay là chia từng serie thành dữ liệu hàng ngày, ví dụ:
từ:
2013/03/03 - 2013-03-09 37
đến:
2013/03/03 37 2013-03-04 37 2013 / 03-05 37 2013 / 03-06 37 2013/03/07 37 2013/03/08 37 2013-03-09 37
Nhưng điều này đang thêm rất nhiều phức tạp vào vấn đề của tôi. Tôi đã cố gắng dự đoán các tìm kiếm google từ 6 tháng trước hoặc 6 giá trị trong dữ liệu hàng tháng. Dữ liệu hàng ngày sẽ ngụ ý một công việc về 180 giá trị trong quá khứ. (Tôi có 10 năm dữ liệu nên 120 điểm trong dữ liệu hàng tháng / 500+ dữ liệu hàng tuần / 3500+ trong dữ liệu hàng ngày)
Cách tiếp cận khác là "hợp nhất" dữ liệu hàng ngày trong dữ liệu hàng tuần / hàng tháng. Nhưng một số câu hỏi phát sinh từ quá trình này. Một số dữ liệu có thể được tính trung bình vì tổng của chúng đại diện cho một cái gì đó. Lượng mưa chẳng hạn, lượng mưa trong một tuần nhất định sẽ là tổng số lượng cho mỗi ngày sáng tác trong tuần.
Trong trường hợp của tôi, tôi đang đối phó với giá cả, tỷ lệ tài chính và những thứ khác. Đối với giá cả, thông thường trong lĩnh vực của tôi sẽ tính khối lượng trao đổi, vì vậy dữ liệu hàng tuần sẽ là trung bình có trọng số. Đối với lãi suất tài chính phức tạp hơn một chút, một số công thức có liên quan để xây dựng tỷ lệ hàng tuần từ lãi suất hàng ngày. Đối với những thứ khác tôi không biết các thuộc tính cơ bản. Tôi nghĩ những tính chất đó rất quan trọng để tránh các chỉ số vô nghĩa (trung bình tỷ lệ hôn phu sẽ là vô nghĩa chẳng hạn).
Vì vậy, ba câu hỏi:
Đối với các thuộc tính đã biết và chưa biết, tôi nên tiến hành chuyển từ dữ liệu hàng ngày sang hàng tuần / hàng tháng như thế nào?
Tôi cảm thấy việc chia dữ liệu hàng tuần / hàng tháng thành dữ liệu hàng ngày như tôi đã làm là hơi sai bởi vì tôi đang giới thiệu số lượng không có ý nghĩa trong cuộc sống thực. Vì vậy, gần như cùng một câu hỏi:
Đối với các thuộc tính đã biết và chưa biết, tôi nên tiến hành chuyển từ dữ liệu hàng tuần / hàng tháng sang dữ liệu hàng ngày như thế nào?
Cuối cùng nhưng không kém phần quan trọng: khi đưa ra hai chuỗi thời gian với các bước thời gian khác nhau, điều gì tốt hơn: Sử dụng bước thời gian thấp nhất hoặc lớn nhất? Tôi nghĩ rằng đây là một sự thỏa hiệp giữa số lượng dữ liệu và độ phức tạp của mô hình nhưng tôi không thể thấy bất kỳ đối số mạnh nào để lựa chọn giữa các tùy chọn đó.
Chỉnh sửa: nếu bạn biết một công cụ (trong R Python thậm chí Excel) để làm điều đó một cách dễ dàng thì nó sẽ được đánh giá rất cao.