Trong thuật ngữ ma trận, các mô hình của bạn ở dạng thông thường . E[Y]=Xβ
Mô hình đầu tiên biểu thị một phần tử của nhóm thứ nhất theo hàng trong , tương ứng với phần chặn, chỉ báo cho loại 2 và chỉ báo cho loại 3. Nó đại diện cho một phần tử của nhóm thứ hai hàng và một yếu tố của nhóm thứ ba bằng .(1,0,0)X(1,1,0)(1,0,1)
Thay vào đó, mô hình thứ hai sử dụng các hàng , và , tương ứng.(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)
Hãy gọi ma trận mô hình kết quả là và . Chúng chỉ đơn giản là liên quan: các cột của một là kết hợp tuyến tính của các cột khác. Chẳng hạn, hãyX1X2
V=⎛⎝⎜100112138⎞⎠⎟.
Sau đó kể từ
⎛⎝⎜111010001⎞⎠⎟V=⎛⎝⎜111123149⎞⎠⎟,
nó theo đó
X1V=X2.
Các mô hình do đó có liên quan bởi
X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).
Nghĩa là, các hệ số cho mô hình thứ hai phải liên quan đến các hệ số của mô hình thứ nhất thông quaβ2
β1=Vβ2.
Do đó, mối quan hệ tương tự giữ cho ước tính bình phương nhỏ nhất của họ. Điều này cho thấy các mô hình có sự phù hợp giống hệt nhau : chúng chỉ đơn thuần thể hiện chúng khác nhau.
Do các cột đầu tiên của hai ma trận mô hình là như nhau, nên bất kỳ bảng ANOVA nào phân tách phương sai giữa cột đầu tiên và các cột còn lại sẽ không thay đổi. Tuy nhiên, một bảng ANOVA phân biệt giữa cột thứ hai và thứ ba, sẽ phụ thuộc vào cách dữ liệu được mã hóa.
Về mặt hình học (và có phần trừu tượng hơn), không gian con ba chiều của được tạo bởi các cột của trùng với không gian con được tạo bởi các cột của . Do đó các mô hình sẽ có phù hợp giống hệt nhau. Sự phù hợp được thể hiện khác nhau chỉ vì các không gian được mô tả với hai cơ sở khác nhau.R15X1X2
Để minh họa, đây là dữ liệu giống như dữ liệu của bạn (nhưng có phản hồi khác nhau) và các phân tích tương ứng như được tạo trong R
.
set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))
Phù hợp với hai mô hình:
fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)
Hiển thị bảng ANOVA của họ:
anova(fit.1)
anova(fit.2)
Đầu ra cho mô hình đầu tiên là
Df Sum Sq Mean Sq F value Pr(>F)
factor(group) 2 51.836 25.918 14.471 0.000634 ***
Residuals 12 21.492 1.791
Đối với mô hình thứ hai, nó là
Df Sum Sq Mean Sq F value Pr(>F)
group 1 50.816 50.816 28.3726 0.0001803 ***
I(group^2) 1 1.020 1.020 0.5694 0.4650488
Residuals 12 21.492 1.791
Bạn có thể thấy rằng các tổng còn lại của hình vuông là như nhau. Bằng cách thêm hai hàng đầu tiên trong mô hình thứ hai, bạn sẽ thu được cùng một DF và tổng bình phương, từ đó có thể tính cùng một bình phương trung bình, giá trị F và giá trị p.
Cuối cùng, hãy so sánh các ước tính hệ số.
beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)
Đầu ra là
(Intercept) factor(group)2 factor(group)3
0.4508762 2.8073697 4.5084944
(Intercept) group I(group^2)
-3.4627385 4.4667371 -0.5531225
Ngay cả các phần chặn cũng hoàn toàn khác nhau. Đó là bởi vì các ước tính của bất kỳ biến nào trong hồi quy bội phụ thuộc vào ước tính của tất cả các biến khác (trừ khi chúng là trực giao lẫn nhau, không phải là trường hợp của cả hai mô hình). Tuy nhiên, hãy xem những gì nhân với hoàn thành:V
⎛⎝⎜100112138⎞⎠⎟⎛⎝⎜−3.46273854.4667371−0.5531225⎞⎠⎟=⎛⎝⎜0.45087622.80736974.5084944⎞⎠⎟.
Sự phù hợp thực sự là giống như tuyên bố.