Làm cách nào để mô hình hóa dữ liệu nhiệt độ chuỗi thời gian tại nhiều trang web dưới dạng chức năng của dữ liệu tại một trang web?


8

Tôi chưa quen với phân tích chuỗi thời gian và sẽ đánh giá cao bất kỳ đề xuất nào về cách tốt nhất để tiếp cận vấn đề hồi quy chuỗi thời gian sau: Tôi có các phép đo nhiệt độ hàng giờ tại khoảng 20 địa điểm trên một địa điểm trong ba năm, cùng với thông tin phụ trợ tĩnh (độ dốc, độ cao, khía cạnh, tán che). Khu vực này có kích thước vài ha và các thiết bị ghi nhiệt độ được trải đều trên địa điểm dọc theo một vài đường cắt, cách nhau khoảng 20-50 m. Cách đó khoảng 1 km, tôi có dữ liệu hàng giờ từ một trạm thời tiết, nơi cũng cung cấp các phép đo tốc độ gió, hướng gió, độ ẩm, chiếu sáng mặt trời, v.v.

Tôi muốn có thể dự đoán nhiệt độ (tối thiểu, tối đa, trung bình) tại trang web (nói chung) chỉ sử dụng dữ liệu từ trạm thời tiết; nó được đặt bán vĩnh viễn, trong khi máy ghi nhiệt độ tại địa điểm này chỉ hoạt động được 3 năm. Vì vậy, về bản chất, tôi có nhiều biến độc lập (nhiệt độ, độ ẩm, gió, v.v.) tại một địa điểm (trạm thời tiết), nhưng một biến phụ thuộc duy nhất (nhiệt độ) tại nhiều vị trí, mỗi biến cũng có một số thuộc tính bất biến theo thời gian: độ dốc, độ cao, khía cạnh, vv

Tôi quan tâm nhất đến việc dự đoán mức thấp và mức cao hàng ngày tại địa điểm nói chung, thay vì nhiệt độ hàng giờ tại mỗi vị trí ghi nhiệt độ trong trang web. Mặc dù, những dự đoán hàng giờ đó chắc chắn sẽ có giá trị.

Cách tiếp cận ban đầu của tôi là tính trung bình hàng ngày, tối thiểu và tối đa từ nhiệt độ tại địa điểm và sử dụng chúng làm biến phụ thuộc trong hồi quy tuyến tính đơn giản, sử dụng các phép đo có sẵn tại trạm thời tiết làm biến độc lập. Điều này hoạt động khá tốt (R2> 0,50 với 2 dự đoán), nhưng có vẻ khá đơn giản vì nhiều lý do, và tôi tưởng tượng phải có nhiều cách tinh vi hơn (và mạnh mẽ) để làm điều này.

Đối với một người, tôi không làm gì rõ ràng về bản chất chuỗi thời gian của các giá trị hàng ngày trong hồi quy và mặc dù tốc độ tối thiểu hoặc trung bình từ một ngày đến ngày tiếp theo có thể không tương quan như từ một giờ đến tiếp theo, tôi tự hỏi về các vấn đề với tính độc lập của các dữ liệu hàng ngày này (hoặc chắc chắn là hàng giờ, nếu tôi đang cố gắng dự đoán nhiệt độ hàng giờ). Thứ hai, do lo ngại về việc có nhiều phép đo nhiệt độ tương quan với nhau trên toàn bộ trang web (chúng giống nhau hơn nhiều so với dữ liệu của trạm thời tiết), tôi chỉ đơn giản sử dụng giá trị trung bình hoặc tối thiểu hoặc tối đa của tất cả các phép đo trên trang web , so với bao gồm dữ liệu từ từng vị trí đo riêng lẻ trực tiếp. Nhưng điều này cũng ngăn tôi sử dụng thông tin phụ trợ bất biến theo thời gian từ mỗi vị trí đo nhiệt độ (độ dốc, độ cao, khía cạnh, độ che phủ của tán cây), có lẽ sẽ giải thích một phần tốt về sự khác biệt về nhiệt độ giữa các vị trí trong khu vực. Thứ ba, do lo ngại về hồi quy bị chi phối bởi chu kỳ ngày đêm rất mạnh về nhiệt độ, tôi chỉ nhìn vào các giá trị hàng ngày thay vì hàng giờ.

Bất kỳ đề xuất nào về các cách tốt hơn để thực hiện điều này (đặc biệt là trong R), hoặc nơi bắt đầu tìm kiếm, sẽ được đánh giá cao nhất! Tôi nhận ra có rất nhiều gói R liên quan đến chuỗi thời gian, nhưng tôi gặp khó khăn khi tìm nơi tốt nhất để bắt đầu với loại vấn đề này vì không có ví dụ nào tôi thấy thực sự phản ánh tình huống tôi cố gắng mô hình ở đây.

Cập nhật: suy nghĩ về điều này nhiều hơn một chút, tôi không rõ liệu các mô hình chuỗi thời gian có thực sự phù hợp ở đây không vì tôi không quan tâm đến việc dự đoán điều gì sẽ xảy ra tại một thời điểm cụ thể trong tương lai. Thay vào đó, tôi chỉ đơn giản quan tâm đến việc nhiệt độ tại địa điểm có liên quan đến nhiệt độ (và các biến môi trường khác) tại trạm thời tiết. Tôi nghĩ rằng có lẽ phân tích chuỗi thời gian sẽ có giá trị bởi vì tôi lo ngại rằng các phép đo nhiệt độ tiếp theo có thể không đủ độc lập. Chắc chắn, nhiệt độ một giờ phụ thuộc rất nhiều vào giờ trước đó, nhưng sự phụ thuộc yếu hơn đối với dữ liệu hàng ngày. Trong cả hai trường hợp, sự tương quan thời gian / không độc lập của dữ liệu chuỗi thời gian có phải là mối quan tâm hợp lệ cần được giải quyết nếu một người không quan tâm đến dự đoán chuỗi thời gian?


Tôi đã đề nghị một cái gì đó dọc theo các quá trình điểm . Nhưng tôi không biết làm thế nào để thực hiện chính xác, bạn có thể xem luận điểm này để biết một số ý tưởng ...
teucer

Câu trả lời:


1

Bạn có thể muốn kiểm tra gói GAM trong R, vì nó có thể được điều chỉnh để thực hiện một số (hoặc tất cả) những gì bạn đang tìm kiếm. Bài báo gốc ( Hastie & Tibshirani, 1986 ) có sẵn thông qua OpenAccess nếu bạn sẵn sàng đọc nó.

Về cơ bản, bạn mô hình hóa một biến phụ thuộc duy nhất là kết hợp phụ gia của các yếu tố dự đoán 'trơn tru'. Một trong những cách sử dụng điển hình là có chuỗi thời gian và chậm trễ như dự đoán của bạn, làm mịn các đầu vào này, sau đó áp dụng GAM.

Phương pháp này đã được sử dụng rộng rãi để ước tính tỷ lệ tử vong hàng ngày như là một chức năng của chuỗi thời gian môi trường được làm mịn, đặc biệt là các chất ô nhiễm. Nó không phải là OpenAccess, nhưng ( Dominici et al., 2000 ) là một tài liệu tham khảo tuyệt vời và ( Phương pháp thống kê dịch tễ học môi trường với R ) là một cuốn sách tuyệt vời về cách sử dụng R để thực hiện loại phân tích này.


0

Cho dù bạn có muốn dự báo hay không thì không liên quan gì đến phân tích chuỗi thời gian chính xác. Các phương thức chuỗi thời gian có thể phát triển một mô hình mạnh mẽ, có thể được sử dụng đơn giản để mô tả mối quan hệ giữa chuỗi phụ thuộc và tập hợp các đầu vào do người dùng đề xuất (còn gọi là chuỗi dự đoán do người dùng chỉ định) và các biến bị bỏ qua được xác định theo kinh nghiệm là chúng có thể xác định hoặc ngẫu nhiên. tùy chọn của họ sau đó có thể mở rộng "tín hiệu" trong tương lai, tức là dự báo với độ không đảm bảo dựa trên độ không đảm bảo của các hệ số và độ không đảm bảo trong các giá trị tương lai của bộ dự đoán. Bây giờ hai loại "chuỗi bỏ qua" được xác định theo kinh nghiệm có thể được phân loại thành 1) xác định và 2) ngẫu nhiên. Loại đầu tiên chỉ đơn giản là Xung, Chuyển cấp, Xung theo mùa và Xu hướng thời gian địa phương trong khi loại thứ hai được biểu thị bằng phần ARIMA trong mô hình cuối cùng của bạn. Khi một người bỏ qua một hoặc nhiều chuỗi ngẫu nhiên từ danh sách các dự đoán có thể, thiếu sót được đặc trưng bởi thành phần ARIMA trong mô hình cuối cùng của bạn. Các nhà tạo mô hình chuỗi thời gian gọi các mô hình ARIMA là "Mô hình hồi quy của người nghèo" vì quá khứ của chuỗi này đang được sử dụng làm proxy cho chuỗi đầu vào ngẫu nhiên bị bỏ qua.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.