Làm thế nào để giải thích các biện pháp lỗi?


41

Tôi đang chạy phân loại trong Weka cho một bộ dữ liệu nhất định và tôi nhận thấy rằng nếu tôi đang cố gắng dự đoán một giá trị danh nghĩa, đầu ra sẽ hiển thị cụ thể các giá trị dự đoán chính xác và không chính xác. Tuy nhiên, bây giờ tôi đang chạy nó cho một thuộc tính số và đầu ra là:

Correlation coefficient                 0.3305
Mean absolute error                     11.6268
Root mean squared error                 46.8547
Relative absolute error                 89.2645 %
Root relative squared error             94.3886 %
Total Number of Instances               36441 

Làm thế nào để tôi giải thích điều này? Tôi đã cố gắng googling từng khái niệm nhưng tôi không hiểu nhiều vì thống kê hoàn toàn không phải trong lĩnh vực chuyên môn của tôi. Tôi sẽ đánh giá rất cao một loại câu trả lời ELI5 về mặt thống kê.

Câu trả lời:


52

Hãy biểu thị giá trị thực của lãi suất là và giá trị được ước tính bằng một số thuật toán là .qθθ^

Tương quan cho bạn biết có bao nhiêu và có liên quan. Nó đưa ra các giá trị giữa và , trong đó không có quan hệ, rất mạnh, quan hệ tuyến tính và là quan hệ tuyến tính nghịch đảo (nghĩa là các giá trị lớn hơn của biểu thị các giá trị nhỏ hơn của hoặc vice ngược lại). Dưới đây bạn sẽ tìm thấy một ví dụ minh họa về tương quan.q - 1 1 0 1 - 1 q qθθ^11011θθ^

Ví dụ tương quan

(nguồn: http://www.mathsisfun.com/data/correlation.html )

Có nghĩa là lỗi tuyệt đối là:

MAE=1Ni=1N|θ^iθi|

Lỗi trung bình bình phương gốc là:

RMSE=1Ni=1N(θ^iθi)2

Lỗi tương đối tuyệt đối :

RAE=i=1N|θ^iθi|i=1N|θ¯θi|

trong đó là giá trị trung bình của . qθ¯θ

Lỗi bình phương gốc tương đối:

RRSE=i=1N(θ^iθi)2i=1N(θ¯θi)2

Như bạn thấy, tất cả các số liệu thống kê so sánh các giá trị thực với ước tính của chúng, nhưng thực hiện theo một cách hơi khác. Tất cả đều cho bạn biết "khoảng cách xa" là giá trị ước tính của bạn so với giá trị thực của . Đôi khi căn bậc hai được sử dụng và đôi khi giá trị tuyệt đối - điều này là do khi sử dụng căn bậc hai, các giá trị cực trị có ảnh hưởng nhiều hơn đến kết quả (xem Tại sao bình phương chênh lệch thay vì lấy giá trị tuyệt đối trong độ lệch chuẩn? Hoặc trên Mathoverflow ).θ

Trong và bạn chỉ cần xem "chênh lệch trung bình" giữa hai giá trị đó - vì vậy bạn diễn giải chúng so với thang đo có giá trị của bạn, (ví dụ của 1 điểm là một chênh lệch 1 điểm của giữa và ).R M S E M S E q q qMAERMSEMSEθθ^θ

Trong và bạn chia các khác biệt đó cho biến thể của để chúng có thang đo từ 0 đến 1 và nếu bạn nhân giá trị này với 100, bạn sẽ có độ tương tự theo tỷ lệ 0-100 (tức là tỷ lệ phần trăm ). Các giá trị của hoặccho bạn biết khác bao nhiêu so với giá trị trung bình của nó - vì vậy bạn có thể nói rằng đó là khoảng bao nhiêu khác với chính nó (so với phương sai ). Do đó, các biện pháp được đặt tên là "tương đối" - chúng cho bạn kết quả liên quan đến thang đo của .R R S E θ Σ ( ¯ θ - θ i ) 2 Σ | ¯ θ - θ i | q q qRAERRSEθ(θ¯θi)2|θ¯θi|θθθ

Kiểm tra những slide đó .


Cảm ơn bạn đã giải thích của bạn! Tôi đang cố gắng đánh giá hiệu suất của các thuật toán khác nhau. Vì vậy, ví dụ, nếu tôi nhận được kết quả đầu ra khác này tốt hơn?
FloIancu

5
Bạn nên chọn mô hình có tương quan lớn hơn và ước tính lỗi nhỏ hơn. Như bạn thấy, có nhiều thước đo hiệu suất mô hình (và đó chỉ là một vài trong số chúng) và đôi khi chúng đưa ra các câu trả lời khác nhau. Nó gần như không bao giờ là câu trả lời "có / không" mà bạn nhận được. Nhiệm vụ lựa chọn mô hình sẽ trở nên dễ dàng hơn nếu bạn bắt kịp với lý thuyết, bạn có thể kiểm tra ví dụ những bài giảng đó .
Tim

Cảm ơn nhiều! Tôi đã đi trước và đánh dấu câu trả lời của bạn là câu trả lời vì bạn đã giúp tôi rất nhiều!
FloIancu

1
@Tim Có nghĩa là lỗi tuyệt đối có lẽ nên được viết tắt là MAE :)
Antoine

1
@MewX Bạn đang tìm kiếm loại tài liệu tham khảo nào? Nó về cơ bản là một RMSE thay đổi kích thước. Không có nhiều điều để nói về nó ...
Tim
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.