Sự khác biệt giữa phương sai và sai số bình phương trung bình là gì?

Tôi ngạc nhiên khi điều này chưa được hỏi trước đây, nhưng tôi không thể tìm thấy câu hỏi trên stats.stackexchange.

Đây là công thức để tính toán phương sai của một mẫu phân phối thông thường:

\frac{\sum (X - \bar{X})^{2}}{n - 1}

$\frac{\sum(X - \bar{X}) ^2}{n-1}$

Đây là công thức để tính sai số bình phương trung bình của các quan sát trong hồi quy tuyến tính đơn giản:

\frac{\sum (y_{i} - {\hat{y}}_{i})^{2}}{n - 2}

$\frac{\sum(y_i - \hat{y}_i) ^2}{n-2}$

Sự khác biệt giữa hai công thức này là gì? Sự khác biệt duy nhất tôi có thể thấy là MSE sử dụng . Vì vậy, nếu đó là sự khác biệt duy nhất, tại sao không coi chúng là cả hai phương sai, nhưng với mức độ tự do khác nhau? $n-2$

variance error

— luciano
nguồn

Điều gì về trang wikipedia ở đây không rõ ràng?

— TrynnaDoStat

Phương sai là trung bình độ lệch bình phương của các quan sát so với giá trị trung bình. Ngược lại, MSE là trung bình độ lệch bình phương của các dự đoán từ các giá trị thực.

— Random_guy

Cả "phương sai" và "lỗi bình phương" đều có nhiều công thức và các ứng dụng khác nhau. Để làm rõ câu hỏi của bạn, bạn có thể (a) mô tả loại dữ liệu nào bạn đang áp dụng các khái niệm này cho và (b) đưa ra công thức cho chúng không? (Có khả năng là bạn cũng sẽ khám phá ra câu trả lời cho câu hỏi của mình.)

— whuber

Có một công thức tổng quát hơn, mà cả hai đều là những trường hợp đặc biệt của:

nơi

là số thông số ước tính trong việc có được

\frac{\sum_{i} (y_{i} - {\hat{y}}_{i})^{2}}{n - p}

$\frac{\sum_i(y_i-\hat{y}_i)^2}{n-p}$

p

$p$

\hat{y}

$\hat{y}$

— Glen_b -Reinstate Monica

@Glen_b bạn có thể vui lòng cung cấp một tài liệu tham khảo để biết thêm thông tin về công thức chung này không?

— trianta2

Câu trả lời:

Lỗi bình phương trung bình như bạn đã viết cho OLS đang ẩn một cái gì đó:

\frac{\sum_{i}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{n - 2} = \frac{\sum_{i}^{n} {[y_{i} - ({\hat{β}}_{0} + {\hat{β}}_{x} x_{i})]}^{2}}{n - 2}

$\frac{\sum_{i}^{n}(y_i - \hat{y}_i) ^2}{n-2} = \frac{\sum_{i}^{n}\left[y_i - \left(\hat{\beta}_{0} + \hat{\beta}_{x}x_{i}\right)\right] ^2}{n-2}$

Lưu ý rằng tử số tính tổng một hàm của cả $y$ và $x$ , do đó bạn mất một mức độ tự do cho mỗi biến, do đó $n-2$ . Trong công thức cho phương sai mẫu, tử số là hàm của một biến duy nhất, do đó bạn chỉ mất một bậc tự do trong mẫu số.

Tuy nhiên, bạn đang đi đúng hướng khi nhận thấy đây là những đại lượng tương tự về mặt khái niệm. Phương sai mẫu đo lường mức độ lan truyền của dữ liệu xung quanh giá trị trung bình mẫu (tính theo đơn vị bình phương), trong khi MSE đo mức lan truyền dọc của dữ liệu xung quanh đường hồi quy mẫu (tính theo đơn vị dọc bình phương).

— Alexis
nguồn

@amoeba Này! Cảm ơn vì đã chú ý. Có một hướng dẫn phong cách CV chính thức nhắc nhở chỉnh sửa này? Nếu vậy tôi muốn tìm hiểu về nó. Nếu không, tốt, Glen_b đã từng khuyên tôi một cách đúng đắn vì đã thuộc địa với sở thích phong cách cá nhân của tôi và chỉnh sửa cho người khác Qs và As. Bạn nghĩ sao? (Và tôi hỏi điều này với giọng điệu thông thường: Tôi nghĩ rằng chỉnh sửa của bạn có thêm điều gì đó. Chỉ muốn hiểu giá trị chỉnh sửa của chúng tôi tốt hơn.)

— Alexis

Tôi không nghĩ có bất kỳ hướng dẫn kiểu CV chính thức nào đưa ra đề xuất này, nhưng trong LaTeX có các công thức nội tuyến (được đánh dấu bằng một ký hiệu đô la) được hiển thị trực tiếp trong khối văn bản và hiển thị các công thức (được đánh dấu bằng hai ký hiệu đô la) được kết xuất trên một dòng riêng biệt. Công thức hiển thị sử dụng bố trí khác nhau. Công thức của bạn ban đầu nằm trên một dòng riêng biệt nhưng được đánh dấu bằng một ký hiệu đô la; Tôi không nghĩ rằng điều này có ý nghĩa. Tuy nhiên, bạn đúng về sở thích cá nhân, vì vậy hãy thoải mái quay lại với lời xin lỗi. Lý do tôi chỉnh sửa là dù sao tôi cũng đã sửa lỗi chính tả trong Q.

— amip nói phục hồi Monica

nếu không có thuật ngữ chặn

trong bài toán hồi quy, thì mức độ tự do của MSE bằng

như trong công thức phương sai thay vì

β_{0}

$\beta_0$

n - 1

$n-1$

n - 2

$n-2$

— develarist

Trong công thức phương sai, trung bình mẫu xấp xỉ trung bình dân số. Giá trị trung bình mẫu được tính cho một mẫu nhất định với $n$ điểm dữ liệu. Việc biết trung bình mẫu khiến chúng ta chỉ có $n-1$ điểm dữ liệu độc lập vì điểm dữ liệu ^thứ $n$ bị ràng buộc bởi giá trị trung bình mẫu, do đó ( ) bậc tự do (DOF) trong mẫu số trong công thức phương sai. $n-1$

$= \beta_{0} + \beta_{1}\times x$ $\beta_{0}$ $\beta_{1}$ $n-2$

— Brajesh Kumar
nguồn