Hiểu khái niệm về lỗi bình phương gốc và sai lệch trung bình


13

Tôi muốn có được sự hiểu biết về khái niệm về Lỗi bình phương gốc (RMSE) và Độ lệch thiên vị trung bình (MBD). Khi tính toán các biện pháp này để so sánh dữ liệu của riêng tôi, tôi thường cảm thấy bối rối khi thấy RMSE cao (ví dụ: 100 kg), trong khi MBD thấp (ví dụ: dưới 1%).

Cụ thể hơn, tôi đang tìm kiếm một tài liệu tham khảo (không trực tuyến) liệt kê và thảo luận về toán học của các biện pháp này. Cách thông thường được chấp nhận để tính hai biện pháp này là gì và tôi nên báo cáo chúng như thế nào trong một bài báo.

Nó sẽ thực sự hữu ích trong bối cảnh của bài đăng này để có một bộ dữ liệu "đồ chơi" có thể được sử dụng để mô tả tính toán của hai biện pháp này.

Ví dụ: giả sử tôi tìm khối lượng (tính bằng kg) của 200 vật dụng được sản xuất bởi một dây chuyền lắp ráp. Tôi cũng có một mô hình toán học sẽ cố gắng dự đoán khối lượng của các vật dụng này. Mô hình không nhất thiết phải theo kinh nghiệm và nó có thể dựa trên cơ sở vật lý. Tôi tính RMSE và MBD giữa các phép đo thực tế và mô hình, thấy rằng RMSE là 100 kg và MBD là 1%. Điều này có nghĩa gì về mặt khái niệm và làm thế nào tôi diễn giải kết quả này?

Bây giờ giả sử rằng tôi tìm thấy từ kết quả của thí nghiệm này rằng RMSE là 10 kg và MBD là 80%. Điều này có nghĩa là gì, và tôi có thể nói gì về thí nghiệm này?

Ý nghĩa của các biện pháp này là gì, và hai trong số chúng (được thực hiện cùng nhau) ngụ ý gì? MBD cung cấp thêm thông tin gì khi xem xét với RMSE?


2
Bạn đã xem xung quanh trang web của chúng tôi, Nicholas? Xem xét bắt đầu tại stats.stackexchange.com/a/17545 và sau đó khám phá một số thẻ tôi đã thêm vào câu hỏi của bạn.
whuber

@whuber: Cảm ơn whuber!. Tôi đã xem xung quanh trang web, nhưng với tôi tôi vẫn thấy hơi khó khăn để hiểu điều gì thực sự có ý nghĩa trong bối cảnh nghiên cứu của riêng tôi.
Nicholas Kinar

Câu trả lời:


20

Tôi nghĩ rằng những khái niệm này là dễ dàng để giải thích. Vì vậy, tôi chỉ muốn mô tả nó ở đây. Tôi chắc chắn nhiều cuốn sách thống kê cơ bản bao gồm cuốn sách này bao gồm cuốn sách "Những điều cần thiết của thống kê sinh học cho bác sĩ, y tá và bác sĩ lâm sàng."

Hãy nghĩ về một mục tiêu với một con mắt bò ở giữa. Lỗi bình phương trung bình biểu thị khoảng cách bình phương trung bình từ một mũi tên bắn vào mục tiêu và trung tâm. Bây giờ nếu mũi tên của bạn phân tán đều xung quanh trung tâm thì người bắn không có thiên hướng nhắm và lỗi bình phương trung bình giống như phương sai.

Nhưng nói chung, các mũi tên có thể phân tán xung quanh một điểm ra khỏi mục tiêu. Khoảng cách bình phương trung bình của các mũi tên từ tâm mũi tên là phương sai. Trung tâm này có thể được xem như là mục tiêu của các game bắn súng. Khoảng cách từ trung tâm bắn súng này hoặc điểm ngắm đến trung tâm của mục tiêu là giá trị tuyệt đối của độ lệch.

Suy nghĩ về một tam giác vuông trong đó hình vuông của cạnh huyền là tổng của các hình vuông của hai bên. Vì vậy, khoảng cách bình phương từ mũi tên đến mục tiêu là bình phương khoảng cách từ mũi tên đến điểm ngắm và bình phương khoảng cách giữa tâm của mục tiêu và điểm ngắm. Tính trung bình tất cả các khoảng cách vuông này sẽ cho sai số bình phương trung bình là tổng bình phương sai lệch và phương sai.


Cảm ơn bạn; điều này là rất nhiều đánh giá cao. Tôi vẫn thấy có một chút thách thức để hiểu sự khác biệt giữa RMSE và MBD là gì. Theo tôi hiểu, RMSE định lượng mức độ gần gũi của một mô hình với dữ liệu thử nghiệm, nhưng vai trò của MBD là gì? Có lẽ sự hiểu lầm của tôi chỉ liên quan đến thuật ngữ.
Nicholas Kinar

1
Độ lệch trung bình trung bình khi bạn gọi nó là thuật ngữ thiên vị tôi mô tả. Nó đo khoảng cách mục tiêu cách xa mục tiêu. Xu hướng góp phần làm cho cú đánh không chính xác.
Michael R. Chernick

Cảm ơn một lần nữa, Michael. Vì vậy, RMSE cao và MBD thấp ngụ ý rằng đó là một mô hình tốt?
Nicholas Kinar

Không có RMSE cao và MBD thấp chỉ nói rằng mô hình đó kém vì phương sai lớn thay vì sai lệch lớn. RMSE là con số quyết định mô hình tốt như thế nào.
Michael R. Chernick

1
@bbadyalina: chúng là những mẩu thông tin độc lập, giống như cách lên / xuống và trái / phải là độc lập. Câu hỏi của bạn giống như hỏi "nếu một điểm được căn giữa theo chiều dọc và đi về bên trái, nó có ở giữa không?" hoặc "Nếu một điểm ở trên cao, nhưng nằm ngang ở giữa, thì nó có ở giữa không?"
hư 101

1

RMSE là một cách đo lường mức độ tốt của mô hình dự đoán của chúng tôi so với dữ liệu thực tế, RMSE nhỏ hơn là cách hành xử tốt hơn của mô hình, đó là nếu chúng tôi đã thử nghiệm điều đó trên một tập dữ liệu mới (không phải trên tập huấn luyện của chúng tôi) nhưng sau đó lại có RMSE là 0,37 trong phạm vi từ 0 đến 1, chiếm rất nhiều lỗi so với RMSE là 0,01 là một mô hình tốt hơn. BIAS là để đánh giá quá cao hoặc đánh giá thấp.


Bạn có thể vui lòng cung cấp thêm chi tiết và một ví dụ làm việc? OP đang tìm kiếm một lời giải thích trực quan về ý nghĩa của RMSE, giả sử, 100, chống lại vấn đề ước tính của anh ta.
Tây An

Điều này dường như không cung cấp nhiều trực giác. Bạn có thể giải thích thêm?
Glen_b -Reinstate Monica

0

Theo như tôi có thể hiểu, một RMSE cho giá trị chính xác hơn về lỗi giữa mô hình và được quan sát, tuy nhiên BIAS, ngoài việc đưa ra một giá trị của lỗi (kém chính xác hơn RMSE), nó cũng có thể xác định xem mô hình đó có sai lệch dương hoặc sai lệch âm, nếu mô hình đang đánh giá thấp hoặc đánh giá quá cao các giá trị quan sát được.


Không. Bạn có thể nghĩ RMSE là "độ chính xác" của một mô hình - ví dụ: có bao nhiêu sự lan truyền trong các lỗi dự đoán của nó (lưu ý: độ chính xác là nghịch đảo của phương sai - độ sai lệch cao = độ chính xác thấp). Và bạn có thể nghĩ về Bias là lỗi hệ thống trong mô hình - ví dụ: giá trị trung bình của tất cả các lỗi. Công việc "chính xác" là sự kết hợp mơ hồ của cả hai, và do đó gây ra nhiều nhầm lẫn.
hư 101
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.