Gần đây tôi đã bắt đầu tìm hiểu về Mô hình hỗn hợp tuyến tính tổng quát và đang sử dụng R để khám phá sự khác biệt của nó để coi tư cách thành viên nhóm là hiệu ứng cố định hoặc ngẫu nhiên. Cụ thể, tôi đang xem tập dữ liệu mẫu được thảo luận ở đây:
http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm
http://www.ats.ucla.edu/stat/r/dae/melogit.htmlm
Như đã nêu trong hướng dẫn này, hiệu quả của Doctor ID rất đáng kể và tôi đã mong đợi mô hình hỗn hợp với một đánh chặn ngẫu nhiên sẽ cho kết quả tốt hơn. Tuy nhiên, so sánh các giá trị AIC cho hai phương pháp cho thấy mô hình này tệ hơn:
> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)
Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial,
data = hdp)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.5265 -0.6278 -0.2272 0.5492 2.7329
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.560e+01 1.219e+03 -0.013 0.990
Age -5.869e-02 5.272e-03 -11.133 < 2e-16 ***
Married1 2.688e-01 6.646e-02 4.044 5.26e-05 ***
IL6 -5.550e-02 1.153e-02 -4.815 1.47e-06 ***
DID2 1.805e+01 1.219e+03 0.015 0.988
DID3 1.932e+01 1.219e+03 0.016 0.987
[...]
DID405 1.566e+01 1.219e+03 0.013 0.990
DID405 1.566e+01 1.219e+03 0.013 0.990
DID406 -2.885e-01 3.929e+03 0.000 1.000
DID407 2.012e+01 1.219e+03 0.017 0.987
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 10353 on 8524 degrees of freedom
Residual deviance: 6436 on 8115 degrees of freedom
AIC: 7256
Number of Fisher Scoring iterations: 17
> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m
Generalized linear mixed model fit by the Laplace approximation
Formula: remission ~ Age + Married + IL6 + (1 | DID)
Data: hdp
AIC BIC logLik deviance
7743 7778 -3867 7733
Random effects:
Groups Name Variance Std.Dev.
DID (Intercept) 3.8401 1.9596
Number of obs: 8525, groups: DID, 407
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.461438 0.272709 5.359 8.37e-08 ***
Age -0.055969 0.005038 -11.109 < 2e-16 ***
Married1 0.260065 0.063736 4.080 4.50e-05 ***
IL6 -0.053288 0.011058 -4.819 1.44e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) Age Marrd1
Age -0.898
Married1 0.070 -0.224
IL6 -0.162 0.012 -0.033
> extractAIC(GLM) ; extractAIC(GLMM)
[1] 410.000 7255.962
[1] 5.000 7743.188
Vì vậy, câu hỏi của tôi là:
(1) Có phù hợp để so sánh các giá trị AIC được cung cấp bởi hai chức năng không? Nếu vậy, tại sao mô hình hiệu ứng cố định làm tốt hơn?
(2) Cách tốt nhất để xác định xem các hiệu ứng cố định hay ngẫu nhiên là quan trọng hơn (nghĩa là để định lượng rằng sự thay đổi do bác sĩ quan trọng hơn đặc điểm của bệnh nhân?
DID
như có cả hiệu ứng cố định và đánh chặn ngẫu nhiên trong mô hình thứ 2. Hơn nữa, có nó như là một hiệu ứng cố định trong mô hình thứ nhất có nghĩa là sự lựa chọn b / t 2 điều này sẽ là về cách nghĩ về hiệu ứng của nóDID
, chứ không phải liệu nó có cần được đưa vào hay không. Ở một ghi chú khác, tôi nhận thấy bạn có một mục (2); bạn có nghĩa là có một mục (1) ở đâu đó?