Lỗi bình phương trung bình và tổng bình phương còn lại


31

Nhìn vào các định nghĩa Wikipedia về:

Dường như với tôi rằng

MSE= =1NRSS= =1NΣ(ftôi-ytôi)2

Trong đó là số mẫu của anh ta và là ước tính của chúng tôi về .Nftôiytôi

Tuy nhiên, không có bài viết Wikipedia nào đề cập đến mối quan hệ này. Tại sao? Tui bỏ lỡ điều gì vậy?


6
Tôi biết điều này có vẻ không ích lợi và có phần thù địch, nhưng họ không đề cập đến nó bởi vì nó là hiển nhiên. Ngoài ra, bạn muốn cẩn thận một chút, ở đây. Thông thường, khi bạn gặp MSE trong công việc thực nghiệm thực tế, nó không phải là chia cho mà là chia cho trong đó là số (bao gồm cả phần chặn) của các biến bên phải trong một số mô hình hồi quy. RSSNRSSN-KK
Hóa đơn

10
@Bill: Chà, chính xác là loại mối quan hệ thường dẫn đến các bài viết được liên kết trên Wikipedia. Quan điểm của bạn về mức độ tự do cũng cho thấy điều đó không hoàn toàn rõ ràng và chắc chắn là điều đáng nói.
bluenote10

2
@Bill: Đồng ý, tuy nhiên sự rõ ràng là rất chủ quan. Các khu vực màu xám thống kê / máy học được rải rác với địa ngục ký hiệu và do đó nó là tốt để được rõ ràng.
rnoodle

Câu trả lời:


30

Trên thực tế, nó được đề cập trong phần Hồi quy của lỗi bình phương trung bình trong Wikipedia:

Trong phân tích hồi quy, thuật ngữ bình phương trung bình đôi khi được sử dụng để chỉ ước tính sai lệch không thiên vị: tổng bình phương còn lại chia cho số bậc tự do.

Bạn cũng có thể tìm thấy một số thông tin ở đây: Lỗi và số dư trong thống kê Nó nói rằng biểu thức có nghĩa là lỗi bình phương có thể có ý nghĩa khác nhau trong các trường hợp khác nhau, đôi khi rất khó.


4

Nhưng hãy lưu ý rằng đôi khi Sum of Squared Erros (SSE) và Residue Sum of Squares (RSS) đôi khi được sử dụng một cách trao đổi, do đó gây nhầm lẫn cho độc giả. Ví dụ: kiểm tra Url này: https://365datascience.com/sum-squares/ để biết thêm thông tin về hồi quy tuyến tính.

Nói một cách chính xác từ quan điểm thống kê, Lỗi và Dư lượng là những khái niệm hoàn toàn khác nhau. Lỗi chủ yếu liên quan đến sự khác biệt giữa các giá trị mẫu được quan sát thực tế và các giá trị dự đoán của bạn và được sử dụng chủ yếu trong các số liệu thống kê như Root Means Squared Error (RMSE) và Lỗi absollute trung bình (MAE). Ngược lại, dư lượng chỉ đề cập đến sự khác biệt giữa các biến phụ thuộc và ước tính từ hồi quy tuyến tính.


0

Tôi không nghĩ rằng điều này là chính xác ở đây nếu chúng ta coi MSE là phương tiện của RMSE. Chẳng hạn, bạn có một loạt dữ liệu được lấy mẫu về các dự đoán và quan sát, bây giờ bạn cố gắng thực hiện một hồi quy tuyến tính: Quan sát (O) = a + b X Dự đoán (P). Trong trường hợp này, MSE là tổng chênh lệch bình phương giữa O và P và chia cho cỡ mẫu N.

Nhưng nếu bạn muốn đo lường cách thực hiện hồi quy tuyến tính, bạn cần tính toán dư lượng bình phương trung bình (MSR). Trong trường hợp đó, nó sẽ là trước hết tính dư Sum của Squares (RSS) mà tương ứng với tổng số chênh lệch bình phương giữa các giá trị quan sát thực tế và quan sát dự đoán xuất phát từ tuyến tính regression.Then, nó được theo sau cho RSS chia cho N-2 để nhận MSR.

Nói một cách đơn giản, trong ví dụ, MSE không thể được ước tính bằng RSS / N vì thành phần RSS không còn giống với thành phần được sử dụng để tính toán MSE.


1
Tôi không hiểu câu trả lời này.
Michael R. Chernick

Nhìn, dựa trên ví dụ đã đề cập về dự đoán được lấy mẫu và các giá trị dữ liệu được quan sát, hồi quy tuyến tính được thiết lập: Quan sát (O) = a + b X Dự đoán (P) (a, b lần lượt là chặn và độ dốc). Trong trường hợp này, MSE = (OP) ^ 2 / n, trong đó (OP) ^ 2 là Sum of Squared Erros (SSE) và n là cỡ mẫu. Tuy nhiên, số dư bình phương trung bình (MSR) = (OO,) ^ 2 / n-2, trong đó Σ (OO,) ^ 2 bằng với dư lượng bình phương (RSS) và O` = a + b X P. MSR và RSS chủ yếu được sử dụng để kiểm tra ý nghĩa tổng thể của hồi quy tuyến tính. Cũng lưu ý, SSE = Erros có hệ thống (SE) + RSS, trong đó SE = Σ (PO mộc) ^ 2
Dr.CYY
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.