Tôi có dữ liệu cho một mạng lưới các trạm thời tiết trên khắp Hoa Kỳ. Điều này cho tôi một khung dữ liệu chứa ngày, vĩ độ, kinh độ và một số giá trị đo được. Giả sử rằng dữ liệu được thu thập một lần mỗi ngày và được điều khiển bởi thời tiết quy mô khu vực (không, chúng tôi sẽ không tham gia vào cuộc thảo luận đó).
Tôi muốn hiển thị bằng đồ họa cách các giá trị được đo đồng thời tương quan theo thời gian và không gian. Mục tiêu của tôi là thể hiện tính đồng nhất trong khu vực (hoặc thiếu nó) của giá trị đang được điều tra.
Tập dữ liệu
Để bắt đầu, tôi lấy một nhóm các trạm ở khu vực Massachusetts và Maine. Tôi đã chọn các trang web theo vĩ độ và kinh độ từ một tệp chỉ mục có sẵn trên trang FTP của NOAA.
Ngay lập tức bạn thấy một vấn đề: có rất nhiều trang web có số nhận dạng tương tự hoặc rất gần nhau. FWIW, tôi xác định chúng bằng cả mã USAF và WBAN. Nhìn sâu hơn vào siêu dữ liệu tôi thấy rằng chúng có tọa độ và độ cao khác nhau và dữ liệu dừng ở một trang web sau đó bắt đầu ở một trang web khác. Vì vậy, vì tôi không biết gì hơn, tôi phải coi chúng như những trạm riêng biệt. Điều này có nghĩa là dữ liệu chứa các cặp trạm rất gần nhau.
Phân tích sơ bộ
Tôi đã thử nhóm dữ liệu theo tháng theo lịch và sau đó tính toán hồi quy bình phương nhỏ nhất bình thường giữa các cặp dữ liệu khác nhau. Sau đó, tôi vẽ sơ đồ tương quan giữa tất cả các cặp như một đường nối các trạm (bên dưới). Màu đường cho thấy giá trị của R2 từ OLS phù hợp. Hình sau đó cho thấy 30+ điểm dữ liệu từ tháng 1, tháng 2, v.v ... có mối tương quan giữa các trạm khác nhau trong khu vực quan tâm.
Tôi đã viết các mã cơ bản để giá trị trung bình hàng ngày chỉ được tính nếu có các điểm dữ liệu cứ sau 6 giờ, do đó dữ liệu phải tương đương trên các trang web.
Các vấn đề
Thật không may, đơn giản là có quá nhiều dữ liệu để hiểu về một cốt truyện. Điều đó không thể được sửa chữa bằng cách giảm kích thước của các dòng.
Mạng có vẻ quá phức tạp, vì vậy tôi nghĩ rằng tôi cần tìm ra một cách để giảm độ phức tạp hoặc áp dụng một số loại hạt nhân không gian.
Tôi cũng không chắc đâu là số liệu phù hợp nhất để thể hiện mối tương quan, nhưng đối với đối tượng dự định (phi kỹ thuật), hệ số tương quan từ OLS có thể chỉ là cách đơn giản nhất để giải thích. Tôi có thể cần phải trình bày một số thông tin khác như độ dốc hoặc lỗi tiêu chuẩn.
Câu hỏi
Tôi đang học theo cách của mình vào lĩnh vực này và R cùng một lúc, và sẽ đánh giá cao các đề xuất về:
- Tên chính thức hơn cho những gì tôi đang cố gắng làm là gì? Có một số thuật ngữ hữu ích sẽ cho phép tôi tìm thêm tài liệu? Các tìm kiếm của tôi đang vẽ các khoảng trống cho những gì phải là một ứng dụng phổ biến.
- Có phương pháp thích hợp hơn để hiển thị mối tương quan giữa nhiều bộ dữ liệu được phân tách trong không gian không?
- ... cụ thể, phương pháp nào dễ hiển thị kết quả từ trực quan?
- Có ai trong số này thực hiện trong R?
- Có bất kỳ phương pháp tiếp cận nào cho vay tự động hóa?