Tôi có một vài bộ dữ liệu theo thứ tự hàng ngàn điểm. Các giá trị trong mỗi tập dữ liệu là X, Y, Z đề cập đến tọa độ trong không gian. Giá trị Z biểu thị sự khác biệt về độ cao tại cặp tọa độ (x, y).
Thông thường trong lĩnh vực GIS của tôi, lỗi độ cao được tham chiếu trong RMSE bằng cách trừ điểm thực tế vào điểm đo (điểm dữ liệu LiDAR). Thông thường, tối thiểu 20 điểm kiểm tra mặt đất được sử dụng. Sử dụng giá trị RMSE này, theo NDEP (Nguyên tắc độ cao kỹ thuật số quốc gia) và hướng dẫn của Fema, có thể tính toán độ chính xác: Độ chính xác = 1,96 * RMSE.
Độ chính xác này được nêu là: "Độ chính xác dọc cơ bản là giá trị mà độ chính xác dọc có thể được đánh giá và so sánh một cách công bằng giữa các bộ dữ liệu. Độ chính xác cơ bản được tính ở mức độ tin cậy 95% như là một hàm của RMSE dọc."
Tôi hiểu rằng 95% diện tích theo đường cong phân phối bình thường nằm trong 1,96 * std.deviation, tuy nhiên điều đó không liên quan đến RMSE.
Nói chung tôi đang hỏi câu hỏi này: Sử dụng RMSE được tính toán từ 2 bộ dữ liệu, làm cách nào tôi có thể liên kết RMSE với một số loại chính xác (ví dụ 95% điểm dữ liệu của tôi nằm trong khoảng +/- X cm)? Ngoài ra, làm cách nào để xác định xem tập dữ liệu của tôi có được phân phối bình thường bằng cách sử dụng thử nghiệm hoạt động tốt với tập dữ liệu lớn như vậy không? "Đủ tốt" cho một phân phối bình thường là gì? P <0,05 cho tất cả các xét nghiệm, hay nó phải phù hợp với hình dạng của phân phối bình thường?
Tôi tìm thấy một số thông tin rất tốt về chủ đề này trong bài báo sau:
http://paulzandbergen.com/PUBLICations_files/Zandbergen_TGIS_2008.pdf