Trước hết, chúng ta nên hiểu R
phần mềm đang làm gì khi không có phần chặn nào được đưa vào mô hình. Hãy nhớ lại rằng tính toán thông thường của
khi có một phần chặn là
Sự bình đẳng đầu tiên chỉ xảy ra do sự bao gồm của phần chặn trong mô hình mặc dù điều này có lẽ là phổ biến hơn trong hai cách viết nó. Các thứ hai bình đẳng thực sự cung cấp những giải thích tổng quát hơn! Điểm này cũng là địa chỉ trong câu hỏi liên quan này .R2
R2=∑i(y^i−y¯)2∑i(yi−y¯)2=1−∑i(yi−y^i)2∑i(yi−y¯)2.
Nhưng, điều gì xảy ra nếu không có đánh chặn trong mô hình?
Chà, trong trường hợp đó, R
( âm thầm! ) Sử dụng mẫu đã sửa đổi
R20=∑iy^2i∑iy2i=1−∑i(yi−y^i)2∑iy2i.
Nó giúp nhớ lại những gì đang cố đo. Trong trường hợp trước, nó đang so sánh mô hình hiện tại của bạn với
mô hình tham chiếu chỉ bao gồm một phần chặn (tức là thuật ngữ không đổi). Trong trường hợp thứ hai, không có đánh chặn, vì vậy sẽ rất ít khi so sánh nó với một mô hình như vậy. Vì vậy, thay vào đó, được tính toán, trong đó hoàn toàn sử dụng mô hình tham chiếu chỉ tương ứng với nhiễu .R 2 0R2R20
Trong phần tiếp theo dưới đây, tôi tập trung vào biểu thức thứ hai cho cả và vì biểu thức đó khái quát cho các bối cảnh khác và nói chung là tự nhiên hơn khi nghĩ về mọi thứ theo các phần dư.R 2 0R2R20
Nhưng, chúng khác nhau như thế nào, và khi nào?
Chúng ta hãy tìm hiểu sơ lược về một số đại số tuyến tính và xem liệu chúng ta có thể tìm ra điều gì đang xảy ra không. Trước hết, hãy gọi các giá trị được trang bị từ mô hình bằng hàm chặn và các giá trị được trang bị từ mô hình mà không chặn . y^y~
Chúng ta có thể viết lại các biểu thức cho và dưới dạng
và
tương ứng.R2R20
R2=1−∥y−y^∥22∥y−y¯1∥22,
R20=1−∥y−y~∥22∥y∥22,
Bây giờ, vì , sau đó khi và chỉ khi
∥y∥22=∥y−y¯1∥22+ny¯2R20>R2
∥y−y~∥22∥y−y^∥22<1+y¯21n∥y−y¯1∥22.
Phía bên trái lớn hơn một vì mô hình tương ứng với được lồng trong phạm vi của . Thuật ngữ thứ hai ở phía bên tay phải là bình phương trung bình của các phản hồi chia cho lỗi bình phương trung bình của mô hình chỉ chặn. Vì vậy, giá trị trung bình của phản hồi so với biến thể khác càng lớn, chúng ta càng có nhiều "chùng" và cơ hội thống trị .y~y^R20R2
Lưu ý rằng tất cả các công cụ phụ thuộc vào mô hình nằm ở bên trái và các công cụ phụ thuộc không theo mô hình nằm ở bên phải.
Ok, vậy làm thế nào để chúng ta làm cho tỷ lệ bên trái nhỏ?
Hãy nhớ lại rằng
và trong đó và là ma trận chiếu tương ứng với các không gian con và sao cho .y~=P0yy^=P1yP0P1S0S1S0⊂S1
Vì vậy, để tỷ lệ gần với một, chúng ta cần các không gian con
và rất giống nhau. Bây giờ và chỉ khác nhau bởi liệu có phải là vectơ cơ sở hay không, vì vậy điều đó có nghĩa là
tốt hơn là một không gian con đã nằm rất gần với .S0S1S0S11S01
Về bản chất, điều đó có nghĩa là công cụ dự đoán của chúng ta có phần bù trung bình mạnh hơn và phần bù trung bình này sẽ chi phối sự thay đổi của công cụ dự đoán.
Một ví dụ
Ở đây chúng tôi cố gắng tạo ra một ví dụ với một đánh chặn rõ ràng trong mô hình và hành vi này gần với trường hợp trong câu hỏi. Dưới đây là một số R
mã đơn giản để chứng minh.
set.seed(.Random.seed[1])
n <- 220
a <- 0.5
b <- 0.5
se <- 0.25
# Make sure x has a strong mean offset
x <- rnorm(n)/3 + a
y <- a + b*x + se*rnorm(x)
int.lm <- lm(y~x)
noint.lm <- lm(y~x+0) # Intercept be gone!
# For comparison to summary(.) output
rsq.int <- cor(y,x)^2
rsq.noint <- 1-mean((y-noint.lm$fit)^2) / mean(y^2)
Điều này cho đầu ra sau. Chúng tôi bắt đầu với mô hình với đánh chặn.
# Include an intercept!
> summary(int.lm)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-0.656010 -0.161556 -0.005112 0.178008 0.621790
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.48521 0.02990 16.23 <2e-16 ***
x 0.54239 0.04929 11.00 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.2467 on 218 degrees of freedom
Multiple R-squared: 0.3571, Adjusted R-squared: 0.3541
F-statistic: 121.1 on 1 and 218 DF, p-value: < 2.2e-16
Sau đó, xem những gì xảy ra khi chúng tôi loại trừ chặn.
# No intercept!
> summary(noint.lm)
Call:
lm(formula = y ~ x + 0)
Residuals:
Min 1Q Median 3Q Max
-0.62108 -0.08006 0.16295 0.38258 1.02485
Coefficients:
Estimate Std. Error t value Pr(>|t|)
x 1.20712 0.04066 29.69 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3658 on 219 degrees of freedom
Multiple R-squared: 0.801, Adjusted R-squared: 0.8001
F-statistic: 881.5 on 1 and 219 DF, p-value: < 2.2e-16
Dưới đây là một biểu đồ của dữ liệu với mô hình có chặn màu đỏ và mô hình không có chặn màu xanh lam.