Tôi muốn chọn mô hình bằng cách sử dụng regsubsets()
. Tôi có một khung dữ liệu được gọi là olympiadaten (dữ liệu được tải lên: http://www.sendspace.com/file/8e27d0 ). Trước tiên tôi đính kèm khung dữ liệu này và sau đó bắt đầu phân tích, mã của tôi là:
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
ảnh chụp màn hình của cốt truyện:
Vấn đề là bây giờ, tôi muốn điều chỉnh lại mô hình tốt nhất một cách "thủ công" và xem xét nó, nhưng giá trị của bình phương R được điều chỉnh không giống như trong đầu ra regsubets? Đây cũng là trường hợp cho các mô hình khác, ví dụ: khi tôi thực hiện mô hình đơn giản nhất trong đồ họa:
summary(lm(Gesamt~ExpHealth))
Đồ họa cho biết, nó nên có R bình phương điều chỉnh khoảng 0,14, nhưng khi tôi nhìn vào đầu ra, tôi nhận được giá trị 0,06435.
Đây là đầu ra của summary(lm(Gesamt~ExpHealth))
:
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
Tôi không biết những gì tôi có thể đã làm sai, bất kỳ trợ giúp sẽ được đánh giá cao.
Và cuối cùng nhưng không kém phần quan trọng, một số câu hỏi khác:
- Sự khác biệt giữa việc chọn mô hình của AIC và bởi adj. R bình phương?
- Cả hai đều đo mức độ phù hợp và nhận ra số lượng biến, do đó, không phải là mô hình tốt nhất được AIC chọn cũng là mô hình có mức điều chỉnh cao nhất. r bình phương?
- Khi tôi có 12 biến, điều này có nghĩa, có khả năng của các mô hình, phải không?
- Vì vậy,
regsubsets()
lệnh tính toán từng mô hình và hiển thị hai (nbest=2
) tốt nhất của mỗi kích thước? - Nếu vậy, tôi có thực sự có được mô hình 'tốt nhất' không?
- Và khi tôi thực hiện AIC bằng cách sử dụng lựa chọn ngược (bắt đầu với mô hình chứa tất cả các biến), liệu điều này cũng kết thúc với cùng một mô hình mà
regsubsets()
nói là tốt nhất?