Một câu hỏi có lẽ rất cơ bản về ANOVA đa yếu tố. Giả sử thiết kế hai chiều trong đó chúng tôi kiểm tra cả hai hiệu ứng chính A, B và tương tác A: B. Khi kiểm tra hiệu ứng chính cho A với SS loại I, SS hiệu ứng được tính là chênh lệch , trong đó là tổng bình phương lỗi còn lại của mô hình chỉ với phần chặn, và RSS cho mô hình có thêm yếu tố A. Câu hỏi của tôi liên quan đến sự lựa chọn cho thuật ngữ lỗi:
Làm thế nào để bạn biện minh rằng thuật ngữ lỗi cho thử nghiệm này thường được tính từ RSS của mô hình đầy đủ A + B + A: B bao gồm cả các hiệu ứng chính và tương tác?
... trái ngược với việc lấy thuật ngữ lỗi từ mô hình không bị hạn chế từ so sánh thực tế (RSS từ hiệu ứng chính A trong trường hợp trên):
Điều này tạo ra sự khác biệt, vì thuật ngữ lỗi từ mô hình đầy đủ có thể thường (không phải luôn luôn) nhỏ hơn thuật ngữ lỗi từ mô hình không bị hạn chế trong so sánh. Có vẻ như sự lựa chọn cho thuật ngữ lỗi có phần tùy ý, tạo khoảng trống cho các thay đổi giá trị p mong muốn chỉ bằng cách thêm / xóa các yếu tố không thực sự quan tâm, nhưng dù sao cũng thay đổi thuật ngữ lỗi.
Trong ví dụ sau, giá trị F cho A thay đổi đáng kể tùy thuộc vào lựa chọn cho mô hình đầy đủ, mặc dù so sánh thực tế cho hiệu ứng SS vẫn giữ nguyên.
> DV <- c(41,43,50, 51,43,53,54,46, 45,55,56,60,58,62,62,
+ 56,47,45,46,49, 58,54,49,61,52,62, 59,55,68,63,
+ 43,56,48,46,47, 59,46,58,54, 55,69,63,56,62,67)
> IV1 <- factor(rep(1:3, c(3+5+7, 5+6+4, 5+4+6)))
> IV2 <- factor(rep(rep(1:3, 3), c(3,5,7, 5,6,4, 5,4,6)))
> anova(lm(DV ~ IV1)) # full model = unrestricted model (just A)
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.556 0.9342 0.4009
Residuals 42 2272.80 54.114
> anova(lm(DV ~ IV1 + IV2)) # full model = A+B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.9833 0.1509
IV2 2 1253.19 626.59 24.5817 1.09e-07 ***
Residuals 40 1019.61 25.49
> anova(lm(DV ~ IV1 + IV2 + IV1:IV2)) # full model = A+B+A:B
Df Sum Sq Mean Sq F value Pr(>F)
IV1 2 101.11 50.56 1.8102 0.1782
IV2 2 1253.19 626.59 22.4357 4.711e-07 ***
IV1:IV2 4 14.19 3.55 0.1270 0.9717
Residuals 36 1005.42 27.93
Câu hỏi tương tự áp dụng cho SS loại II, và nói chung cho một giả thuyết tuyến tính chung, nghĩa là, so sánh mô hình giữa một mô hình bị hạn chế và không bị hạn chế trong một mô hình đầy đủ. (Đối với SS loại III, mô hình không bị hạn chế luôn là mô hình đầy đủ, vì vậy câu hỏi không xuất hiện ở đó)
IV1
(ví dụ thứ nhất), thì hai biểu thức cho mẫu số là giống hệt nhau. Tuy nhiên, khi mô hình đầy đủ chứa các hiệu ứng bổ sung, mẫu số để kiểm tra thay đổi mặc dù so sánh mô hình ( so với SS loại 1) thì không. Trong 3 ví dụ, bình phương trung bình của không thay đổi (so sánh cùng một mô hình trong mọi trường hợp), nhưng lỗi bình phương trung bình thì có. Tôi quan tâm đến những gì biện minh cho thuật ngữ lỗi thay đổi khi so sánh thực tế giữ nguyên. ~ 1
~ IV1 + 1
anova(lm(DV ~ IV1))
anova(lm(DV ~ 1))
anova(lm(DV ~ IV1))