Tôi chưa quen với phân tích chuỗi thời gian và sẽ đánh giá cao bất kỳ đề xuất nào về cách tốt nhất để tiếp cận vấn đề hồi quy chuỗi thời gian sau: Tôi có các phép đo nhiệt độ hàng giờ tại khoảng 20 địa điểm trên một địa điểm trong ba năm, cùng với thông tin phụ trợ tĩnh (độ dốc, độ cao, khía cạnh, tán che). Khu vực này có kích thước vài ha và các thiết bị ghi nhiệt độ được trải đều trên địa điểm dọc theo một vài đường cắt, cách nhau khoảng 20-50 m. Cách đó khoảng 1 km, tôi có dữ liệu hàng giờ từ một trạm thời tiết, nơi cũng cung cấp các phép đo tốc độ gió, hướng gió, độ ẩm, chiếu sáng mặt trời, v.v.
Tôi muốn có thể dự đoán nhiệt độ (tối thiểu, tối đa, trung bình) tại trang web (nói chung) chỉ sử dụng dữ liệu từ trạm thời tiết; nó được đặt bán vĩnh viễn, trong khi máy ghi nhiệt độ tại địa điểm này chỉ hoạt động được 3 năm. Vì vậy, về bản chất, tôi có nhiều biến độc lập (nhiệt độ, độ ẩm, gió, v.v.) tại một địa điểm (trạm thời tiết), nhưng một biến phụ thuộc duy nhất (nhiệt độ) tại nhiều vị trí, mỗi biến cũng có một số thuộc tính bất biến theo thời gian: độ dốc, độ cao, khía cạnh, vv
Tôi quan tâm nhất đến việc dự đoán mức thấp và mức cao hàng ngày tại địa điểm nói chung, thay vì nhiệt độ hàng giờ tại mỗi vị trí ghi nhiệt độ trong trang web. Mặc dù, những dự đoán hàng giờ đó chắc chắn sẽ có giá trị.
Cách tiếp cận ban đầu của tôi là tính trung bình hàng ngày, tối thiểu và tối đa từ nhiệt độ tại địa điểm và sử dụng chúng làm biến phụ thuộc trong hồi quy tuyến tính đơn giản, sử dụng các phép đo có sẵn tại trạm thời tiết làm biến độc lập. Điều này hoạt động khá tốt (R2> 0,50 với 2 dự đoán), nhưng có vẻ khá đơn giản vì nhiều lý do, và tôi tưởng tượng phải có nhiều cách tinh vi hơn (và mạnh mẽ) để làm điều này.
Đối với một người, tôi không làm gì rõ ràng về bản chất chuỗi thời gian của các giá trị hàng ngày trong hồi quy và mặc dù tốc độ tối thiểu hoặc trung bình từ một ngày đến ngày tiếp theo có thể không tương quan như từ một giờ đến tiếp theo, tôi tự hỏi về các vấn đề với tính độc lập của các dữ liệu hàng ngày này (hoặc chắc chắn là hàng giờ, nếu tôi đang cố gắng dự đoán nhiệt độ hàng giờ). Thứ hai, do lo ngại về việc có nhiều phép đo nhiệt độ tương quan với nhau trên toàn bộ trang web (chúng giống nhau hơn nhiều so với dữ liệu của trạm thời tiết), tôi chỉ đơn giản sử dụng giá trị trung bình hoặc tối thiểu hoặc tối đa của tất cả các phép đo trên trang web , so với bao gồm dữ liệu từ từng vị trí đo riêng lẻ trực tiếp. Nhưng điều này cũng ngăn tôi sử dụng thông tin phụ trợ bất biến theo thời gian từ mỗi vị trí đo nhiệt độ (độ dốc, độ cao, khía cạnh, độ che phủ của tán cây), có lẽ sẽ giải thích một phần tốt về sự khác biệt về nhiệt độ giữa các vị trí trong khu vực. Thứ ba, do lo ngại về hồi quy bị chi phối bởi chu kỳ ngày đêm rất mạnh về nhiệt độ, tôi chỉ nhìn vào các giá trị hàng ngày thay vì hàng giờ.
Bất kỳ đề xuất nào về các cách tốt hơn để thực hiện điều này (đặc biệt là trong R), hoặc nơi bắt đầu tìm kiếm, sẽ được đánh giá cao nhất! Tôi nhận ra có rất nhiều gói R liên quan đến chuỗi thời gian, nhưng tôi gặp khó khăn khi tìm nơi tốt nhất để bắt đầu với loại vấn đề này vì không có ví dụ nào tôi thấy thực sự phản ánh tình huống tôi cố gắng mô hình ở đây.
Cập nhật: suy nghĩ về điều này nhiều hơn một chút, tôi không rõ liệu các mô hình chuỗi thời gian có thực sự phù hợp ở đây không vì tôi không quan tâm đến việc dự đoán điều gì sẽ xảy ra tại một thời điểm cụ thể trong tương lai. Thay vào đó, tôi chỉ đơn giản quan tâm đến việc nhiệt độ tại địa điểm có liên quan đến nhiệt độ (và các biến môi trường khác) tại trạm thời tiết. Tôi nghĩ rằng có lẽ phân tích chuỗi thời gian sẽ có giá trị bởi vì tôi lo ngại rằng các phép đo nhiệt độ tiếp theo có thể không đủ độc lập. Chắc chắn, nhiệt độ một giờ phụ thuộc rất nhiều vào giờ trước đó, nhưng sự phụ thuộc yếu hơn đối với dữ liệu hàng ngày. Trong cả hai trường hợp, sự tương quan thời gian / không độc lập của dữ liệu chuỗi thời gian có phải là mối quan tâm hợp lệ cần được giải quyết nếu một người không quan tâm đến dự đoán chuỗi thời gian?