RMSE giữa hai raster từng bước


8

Bất cứ ai cũng có thể chỉ ra cách tính RMSE (lỗi bình phương trung bình gốc) giữa hai bước raster sau đây và thảo luận về các giá trị tối thiểu và tối đa của kết quả thu được, và cách diễn giải chúng.

 First raster (original, 2 by 2):
 1 2
 3 4

 Second raster (obtained, 2 by 2):
 2 2
 4 1

Câu trả lời:


13

Phép tính

  1. Trừ một raster từ khác. (Hướng của phép trừ không quan trọng.)

    -1 0
    -1 3

  2. Bình phương kết quả.

    1 0
    1 9

  3. Trung bình các giá trị.

    (1 + 0 + 1 + 9)/(1 + 1 + 1 + 1) = 11/4.

    (Tôi đã viết điều này trong một cách gợi mở để hiển thị như thế nào các tế bào thiếu dữ liệu có thể bị xử lý nếu GIS của bạn không có khả năng này. Tạo một lưới chỉ với 1, nơi bạn có dữ liệu và 0 của các nơi khác Chia sum lưới của bạn bằng cách tổng hợp của lưới chỉ báo. Trong Phân tích không gian, bạn có thể lấy các khoản tiền dưới dạng tổng đầu mối.)

  4. Lấy căn bậc hai.

    Sqrt(11/4) = 1.66

Diễn dịch

Con số này là thước đo sự khác biệt giữa các tế bào điển hình giữa hai lưới. Khi các lưới có hàng trăm giá trị trở lên (như hầu hết), chúng không thể hiện các giá trị cực trị hoặc ngoại lệ lớn, và sự khác biệt trung bình là 0 , thì quy tắc chuẩn để giải thích rmse là:

  • Khoảng 2/3 của tất cả các ô sẽ khác nhau ít hơn so với rmse.

  • Khoảng 95% của tất cả các tế bào sẽ khác nhau ít hơn hai lần so với rmse.

  • Sẽ là bất thường khi thấy sự khác biệt nhiều hơn ba lần so với rmse.

Trong một lưới có kích thước bất kỳ ( ví dụ: một triệu ô), "không bình thường" vẫn chuyển thành vài nghìn ô: khoảng một phần trăm của tất cả chúng.

Trong ví dụ - nhỏ không đáng kể - biết có 4 ô và rmse là 1,66, chúng tôi sẽ nghĩ "khoảng 2/3 - nói 2 hoặc 3 - trong số các ô đồng ý trong 1,66. Có lẽ tất cả chúng đều đồng ý trong vòng 2 * 1.66 = 3.32. " Tình trạng thực tế, như chúng ta có thể thấy từ kết quả của bước (1), là 3/4 số ô đồng ý trong vòng 1,66 và tất cả chúng thực sự đồng ý trong vòng 3.

Khi các lưới khác nhau một cách điên cuồng và thể hiện phạm vi giá trị khổng lồ, bạn có thể không tin vào quy tắc của ngón tay cái. Từ sự bất bình đẳng của Ch Quashev bạn vẫn biết rằng

  • Không quá 1/4 số ô khác nhau hơn hai lần so với trước.

  • Không quá 1/9 số ô khác nhau nhiều hơn ba lần so với rmse.

  • Nói chung, chọn bất kỳ số k bằng 2 hoặc lớn hơn. Không quá 1 / k ^ 2 trong số các ô khác nhau nhiều hơn k lần so với rmse.

Đây là một quy tắc phổ quát , hợp lệ cho bất kỳ cặp lưới nào, trong khi quy tắc ngón tay cái trước đây giả định rằng sự phân bố của các khác biệt tế bào là "hình chuông" mà không có nhiều ngoại lệ.

Biên tập

Các diễn giải trước cho rằng bạn đang so sánh hai lưới có ý định đại diện cho cùng một thứ, cho đến sai số đo, sao cho mức chênh lệch trung bình của chúng bằng 0 (hoặc gần đủ với nó). Khi sự khác biệt trung bình là đáng kể (so với rmse), những cách hiểu này là không chính xác - nhưng sau đó nó cũng hiếm khi có ý nghĩa để sử dụng rmse. Thay vào đó, người ta sẽ (a) báo cáo chênh lệch trung bình và (b) trừ nó vuông sau bước (3). Điều này cung cấp cho bình phương trung bình chứ không phải là sự khác biệt bình phương trung bình. Căn bậc hai của nó là kích thước điển hình của các biến thể giữa hai lưới so với chênh lệch trung bình của chúng . Với cảnh báo này, việc giải thích có thể sử dụng các quy tắc tương tự như trước đây.


@whuber: cảm ơn rất nhiều !!! Có cuốn sách nào mô tả quá trình này như bạn làm chi tiết không? hay giấy? như một tài liệu tham khảo. một lần nữa cảm ơn rất nhiều !!! tôi thực sự đánh giá cao nó.

@whuber: cách tính sẽ thay đổi như thế nào nếu chúng ta có các raster sau, raster1 (3 by 3) = {{1,2, -9999}, {2,3, -9999}, {4,5, -9999}} và raster2 (3 by 3) = {{2,2, -9999}, {- 9999,3,4}, {- 9999, -9999, -9999}}. trong đó không có giá trị dữ liệu là -9999. cảm ơn rất nhiều!!!

@opl Sự khác biệt của hai bằng {{-1,0, Null}, {Null, 0, Null}, {Null, Null, Null}}. Do đó, sự khác biệt bình phương bằng {{1,0, Null}, {Null, 0, Null}, {Null, Null, Null}} và chỉ số bằng {{1,1, Null}, {Null, 1, Null} , {Không, Không, Không,}}. Tổng của chúng lần lượt là 1 và 3, cho bình phương trung bình là 1/3 và có rms Sqrt (1/3).
whuber

@whuber: có thể nói rằng giá trị 'rmse' kết quả sẽ nằm trong một phạm vi cụ thể, chẳng hạn như giả sử tối thiểu 0 và tối đa 10 ...? để tôi có thể nói rằng, nếu nó gần với giá trị tối thiểu thì tốt hơn, và khi nó gần với giá trị tối đa thì nó sẽ sai lệch đáng kể, hoặc ngược lại. cảm ơn trước!

@opl Thông thường bạn không thể dự đoán trước rmse trừ khi bạn biết điều gì đó về cách các lưới có thể thay đổi. Chẳng hạn, siêu dữ liệu cho mỗi lưới có thể cung cấp một dấu hiệu định lượng về độ lệch có khả năng của chúng so với sự thật. Giả sử, mỗi cái là một DEM và một cái có lỗi dọc đã nêu là + -15 m và cái kia có lỗi dọc đã nêu là + -20 m. Lấy những điều này làm chỉ dẫn thô về độ lệch chuẩn, chúng ta có thể kết hợp chúng để ước tính sai số tương đối của Sqrt (15 ^ 2 + 20 ^ 2) = 25 m. Trong trường hợp này, tôi dự đoán khoảng thời gian giữa hai người sẽ vào khoảng 25 m.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.