Hồi quy: Tiện ích của R bình phương so với RMSE là gì?


11

Giả sử tôi đang thực hiện hồi quy với các tập huấn luyện, xác nhận và kiểm tra. Tôi có thể tìm RMSE và R bình phương (R ^ 2, hệ số xác định) từ đầu ra của phần mềm của tôi (chẳng hạn như hàm lm () của R).

Tôi hiểu rằng RMSE thử nghiệm (hoặc MSE) là thước đo mức độ tốt của việc dự đoán các giá trị kiểm tra / xác nhận, trong khi R ^ 2 là thước đo mức độ phù hợp trong việc nắm bắt phương sai trong tập huấn luyện.

Trong thế giới thực, điều tôi thực sự quan tâm là độ chính xác dự đoán tổng quát trên dữ liệu tôi chưa thấy. Vậy thì tiện ích của giá trị R ^ 2 so với RMSE là gì?

Câu trả lời:


7

không được điều chỉnh được xác định là R 2 = 1 - 1R2

R2=11ni=1n(yiy^i)21ni=1n(yiy¯)2=1MSE1nTotSS

RMSE=MSE.

yiy¯y^iR2RMSE

R2RMSE=nnpMSEp


7

Chaconne đã làm một công việc tuyệt vời về việc xác định các công thức đo lường và làm thế nào chúng có liên quan rất chặt chẽ từ quan điểm toán học. Nếu bạn đo điểm chuẩn hoặc xếp hạng các mô hình sử dụng cùng một dữ liệu, hai biện pháp đó có thể hoán đổi cho nhau, nghĩa là bạn sẽ có được thứ hạng chính xác cho các mô hình của mình cho dù bạn sử dụng R Square (xếp hạng cao đến thấp) hay RMSE (xếp hạng thấp đến cao) .

Tuy nhiên, hai biện pháp có ý nghĩa và cách sử dụng rất khác nhau. R Square không chỉ là thước đo mức độ phù hợp, nó còn là thước đo mức độ của mô hình (tập hợp các biến độc lập bạn đã chọn) giải thích hành vi (hoặc phương sai) của biến phụ thuộc của bạn. Vì vậy, nếu mô hình của bạn có R Square là 0,60, nó giải thích 60% hành vi của biến phụ thuộc của bạn. Bây giờ, nếu bạn sử dụng Quảng trường R đã điều chỉnh về cơ bản xử phạt Quảng trường R cho số lượng biến bạn sử dụng, bạn sẽ có một ý tưởng khá hay khi bạn nên dừng thêm các biến vào mô hình của mình (và cuối cùng chỉ cần lấy một mô hình phù hợp hơn). Nếu Quảng trường R đã điều chỉnh của bạn là 0,60. Và, khi bạn thêm một biến phụ, nó chỉ tăng lên 0,61. Có lẽ không đáng để thêm biến này.

Bây giờ, chuyển sang RMSE cũng thường được gọi là Lỗi tiêu chuẩn. Nó có cách sử dụng hoàn toàn khác so với R Square. Lỗi tiêu chuẩn cho phép bạn xây dựng các khoảng tin cậy xung quanh ước tính hồi quy của bạn giả sử bất kỳ mức độ tin cậy nào bạn quan tâm (thường là 99%, 95% hoặc 90%). Thật vậy, Lỗi tiêu chuẩn tương đương với giá trị Z. Vì vậy, nếu bạn muốn xây dựng 95% CI xung quanh đường xu hướng hồi quy của mình, bạn nhân Lỗi tiêu chuẩn với 1,96 và nhanh chóng tạo ước tính cao và thấp làm đường viền của CI 95% của bạn xung quanh đường hồi quy.

Vì vậy, cả Quảng trường R (và Quảng trường R được điều chỉnh) và Lỗi tiêu chuẩn đều cực kỳ hữu ích trong việc đánh giá độ mạnh thống kê của mô hình. Và, như đã chỉ ra họ có ứng dụng thực tế hoàn toàn khác nhau. Người ta đo sức mạnh giải thích của mô hình. Một cái khác cho phép bạn xây dựng Khoảng tin cậy. Cả hai, rất hữu ích nhưng công cụ khác nhau.

Về việc đánh giá độ chính xác dự đoán trên dữ liệu bạn chưa thấy, cả hai biện pháp đều có những hạn chế cũng như hầu hết các biện pháp khác mà bạn có thể nghĩ ra. Trên dữ liệu mới không có mẫu, Quảng trường R và Lỗi tiêu chuẩn về lịch sử hoặc mẫu học tập của mô hình sẽ không được sử dụng nhiều. Các công cụ ngoài mẫu chỉ là một thử nghiệm tuyệt vời để kiểm tra xem mô hình của bạn có quá phù hợp không (Quảng trường R lớn và Lỗi tiêu chuẩn thấp, nhưng hiệu suất kém trong mẫu không). Tôi hiểu các biện pháp tốt hơn cho dữ liệu tiềm năng (dữ liệu bạn chưa thấy) là tiêu chí thông tin bao gồm AIC, BIC, SIC. Và, mô hình với các giá trị tiêu chí thông tin tốt nhất sẽ xử lý dữ liệu không nhìn thấy tốt hơn, nói cách khác là dễ dự đoán hơn. Những biện pháp này là anh em họ thân thiết của khái niệm Điều chỉnh R Square. Tuy nhiên,


1
Cảm ơn câu trả lời của bạn. Tôi thường chỉ sử dụng RMSE để đánh giá sức mạnh dự đoán của mô hình hồi quy tuyến tính (sau khi dự đoán các giá trị của tập kiểm tra không nhìn thấy). Vì vậy, tôi đã không thấy rằng RMSE "có cách sử dụng hoàn toàn khác ... để xây dựng khoảng tin cậy xung quanh ước tính hồi quy của bạn." Tôi đoán đây phải là một điều thống kê? Tôi đến từ khoa học máy tính, vì vậy tôi đã tính toán rất nhiều khoảng tin cậy trong sự nghiệp của mình.
stackoverflowuser2010
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.