Có lẽ sẽ dễ hiểu hơn về cách hồi quy từng bước được thực hiện bằng cách xem xét tất cả 15 mô hình lm có thể.
Đây là một cách nhanh chóng để tạo công thức cho tất cả 15 kết hợp.
library(leaps)
tmp<-regsubsets(mpg ~ wt + drat + disp + qsec, data=mtcars, nbest=1000, really.big=T, intercept=F)
all.mods <- summary(tmp)[[1]]
all.mods <- lapply(1:nrow(all.mods, function(x)as.formula(paste("mpg~", paste(names(which(all.mods[x,])), collapse="+"))))
head(all.mods)
[[1]]
mpg ~ drat
<environment: 0x0000000013a678d8>
[[2]]
mpg ~ qsec
<environment: 0x0000000013a6b3b0>
[[3]]
mpg ~ wt
<environment: 0x0000000013a6df28>
[[4]]
mpg ~ disp
<environment: 0x0000000013a70aa0>
[[5]]
mpg ~ wt + qsec
<environment: 0x0000000013a74540>
[[6]]
mpg ~ drat + disp
<environment: 0x0000000013a76f68>
Các giá trị AIC cho mỗi mô hình được trích xuất bằng:
all.lm<-lapply(all.mods, lm, mtcars)
sapply(all.lm, extractAIC)[2,]
[1] 97.98786 111.77605 73.21736 77.39732 63.90843 77.92493 74.15591 79.02978 91.24052 71.35572
[11] 63.89108 65.90826 78.68074 72.97352 65.62733
Hãy quay trở lại bước hồi quy của bạn. Giá trị extractAIC cho lm (mpg ~ wt + drat + dist + qsec) là 65,63 (tương đương với mô hình 15 trong danh sách trên).
Nếu mô hình loại bỏ phân tán (-disp), thì lm (mpg ~ wt + drat + qsec) là 63.891 (hoặc mô hình 11 trong danh sách).
Nếu mô hình không xóa bất cứ thứ gì (không có), thì AIC vẫn là 65,63
Nếu mô hình loại bỏ qsec (-qsec), thì lm (mpg ~ wt + drat + dist) là 65.908 (mô hình 12).
Vân vân.
Về cơ bản bản tóm tắt cho thấy tất cả có thể loại bỏ từng bước một từ mô hình đầy đủ của bạn và so sánh giá trị extractAIC, bằng cách liệt kê chúng theo thứ tự tăng dần. Vì giá trị AIC nhỏ hơn có nhiều khả năng giống với mô hình TRUTH, bước giữ lại mô hình (-disp) trong bước một.
Quá trình được lặp lại một lần nữa, nhưng với mô hình được giữ lại (-disp) làm điểm bắt đầu. Các thuật ngữ được trừ ("ngược") hoặc trừ / thêm ("cả hai") để cho phép so sánh các mô hình. Vì giá trị AIC thấp nhất trong so sánh vẫn là mô hình (-disp), nên dừng quá trình và các mô hình kết quả được đưa ra.
Liên quan đến truy vấn của bạn: "Hàm cố gắng đạt được bằng cách thêm + phân tán lại trong lựa chọn từng bước là gì?", Trong trường hợp này, nó không thực sự làm gì cả, vì mô hình tốt nhất trong tất cả 15 mô hình là mô hình 11 , tức là lm (mpg ~ wt + drat + qsec).
Tuy nhiên, trong các mô hình phức tạp với số lượng lớn các yếu tố dự đoán đòi hỏi nhiều bước để giải quyết, việc thêm lại một thuật ngữ đã bị xóa ban đầu là rất quan trọng để cung cấp cách so sánh toàn diện nhất cho các điều khoản.
Hy vọng điều này sẽ giúp một cách nào đó.