Đã sửa lỗi và hiệu ứng ngẫu nhiên


10

Gần đây tôi đã bắt đầu tìm hiểu về Mô hình hỗn hợp tuyến tính tổng quát và đang sử dụng R để khám phá sự khác biệt của nó để coi tư cách thành viên nhóm là hiệu ứng cố định hoặc ngẫu nhiên. Cụ thể, tôi đang xem tập dữ liệu mẫu được thảo luận ở đây:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htmlm

Như đã nêu trong hướng dẫn này, hiệu quả của Doctor ID rất đáng kể và tôi đã mong đợi mô hình hỗn hợp với một đánh chặn ngẫu nhiên sẽ cho kết quả tốt hơn. Tuy nhiên, so sánh các giá trị AIC cho hai phương pháp cho thấy mô hình này tệ hơn:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

Vì vậy, câu hỏi của tôi là:

(1) Có phù hợp để so sánh các giá trị AIC được cung cấp bởi hai chức năng không? Nếu vậy, tại sao mô hình hiệu ứng cố định làm tốt hơn?

(2) Cách tốt nhất để xác định xem các hiệu ứng cố định hay ngẫu nhiên là quan trọng hơn (nghĩa là để định lượng rằng sự thay đổi do bác sĩ quan trọng hơn đặc điểm của bệnh nhân?

Câu trả lời:


7

Các mô hình hiệu ứng cố định và mô hình hiệu ứng ngẫu nhiên hỏi các câu hỏi khác nhau của dữ liệu. Chỉ định một tập hợp các biến giả cấp độ nhóm về cơ bản kiểm soát tất cả sự không đồng nhất không quan sát được ở cấp độ nhóm trong phản ứng trung bình, khiến các ước tính của bạn chỉ phản ánh sự thay đổi trong các đơn vị. Các mô hình hiệu ứng ngẫu nhiên bắt đầu với giả định rằng có một siêu dân số (bất kỳ hiệu ứng nào) và mẫu của bạn phản ánh nhiều điểm thu hút từ dân số đó. Vì vậy, thay vì neo kết quả của bạn xung quanh các lần chặn không đồng nhất, dữ liệu của bạn sẽ được sử dụng để làm sáng tỏ các tham số của phân phối (thường là bình thường) mà từ đó dữ liệu của bạn được rút ra.

Người ta thường nói rằng các mô hình hiệu ứng cố định rất tốt để thực hiện suy luận về dữ liệu mà bạn có và các mô hình hiệu ứng ngẫu nhiên rất tốt để cố gắng thực hiện suy luận trên một số dân số lớn hơn mà dữ liệu của bạn là một mẫu ngẫu nhiên.

Khi tôi tìm hiểu về các mô hình hiệu ứng cố định, chúng được thúc đẩy bằng cách sử dụng các thành phần lỗi và dữ liệu bảng. Thực hiện nhiều quan sát của một đơn vị nhất định và điều trị ngẫu nhiên trong thời gian .t

yit=αi+βTit+ϵit

Bạn có thể chia thuật ngữ lỗi của mình thành thành phần của thuật ngữ lỗi thay đổi theo thời gian và một thuật ngữ không thay đổi:

yit=αi+βTit+ei+uit

Bây giờ trừ trung bình theo nhóm từ cả hai phía:

yity¯i=αiα¯i+β(TitT¯i)+eie¯i+uitu¯it

Những thứ không được đăng ký bởi xuất phát từ phương trình bằng phép trừ cơ bản - có nghĩa là trung bình theo thời gian là giống như bất cứ lúc nào nếu nó không bao giờ thay đổi. Điều này bao gồm thành phần không thay đổi thời gian của thuật ngữ lỗi của bạn. Do đó, ước tính của bạn không bị ảnh hưởng bởi tính không đồng nhất theo thời gian. t

Điều này không hoàn toàn làm việc cho một mô hình tác động ngẫu nhiên - không bạn -indexed biến sẽ không được sopped lên bởi sự biến đổi đó ( "trong" chuyển đổi). Như vậy, bạn có thể rút ra suy luận về tác động của những thứ không thay đổi trong nhóm. Trong thế giới thực, những điều như vậy có tầm quan trọng. Do đó, các hiệu ứng ngẫu nhiên rất tốt cho việc "mô hình hóa dữ liệu", trong khi các mô hình hiệu ứng cố định rất tốt để tiến gần hơn đến các ước tính không thiên vị của các thuật ngữ cụ thể. Với mô hình hiệu ứng ngẫu nhiên, bạn không thể yêu cầu xóa hoàn toàn đó .tei

Trong ví dụ này, thời gian là biến nhóm. Trong ví dụ của bạn, nó là DID. (tức là: nó khái quát)


1

1) Nó là thích hợp để thực hiện so sánh, chỉ không với hai mô hình đó. Bạn sẽ muốn so sánh:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

với

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

và bạn có thể làm điều này với anova:

anova(GLM, GLMM)

(Không chắc điều này có hoạt động với kết quả glmvà không glmer, vì chúng có thể là các đối tượng R khác nhau. Bạn có thể phải sử dụng hai hàm có các đối tượng trả về tương đương, như lmegls, hoặc tự thực hiện anova.)

Anova sẽ làm một bài kiểm tra tỷ lệ khả năng đăng nhập để xem liệu việc bổ sung hiệu ứng bác sĩ ngẫu nhiên có đáng kể hay không. Bạn sẽ cần chia giá trị p đó cho 2 trước khi khai báo mức ý nghĩa bởi vì bạn đang kiểm tra giả thuyết null rằng hiệu ứng bác sĩ ngẫu nhiên là 0 và 0 nằm trên ranh giới của không gian tham số cho phương sai (phân phối thực tế bạn đang sử dụng trong bài kiểm tra là sự pha trộn của phân phối và - nhưng tôi đang ở gần ranh giới của sự thiếu hiểu biết của chính mình tại thời điểm này).χ02χ12

Đối với tôi, cuốn sách tốt nhất để hiểu quá trình xây dựng mô hình lồng ghép và kiểm tra giả thuyết là West, Welsh, và Galecki (2007) Mô hình hỗn hợp tuyến tính: Hướng dẫn thực tế . Họ đi qua mọi thứ từng bước một.

2) Nếu bạn có nhiều quan sát cho mỗi bệnh nhân, bạn cũng sẽ thêm một hiệu ứng ngẫu nhiên cho bệnh nhân. Sau đó, để kiểm tra tầm quan trọng tương đối của sự kiên nhẫn so với bác sĩ, bạn có thể xem xét các tác động dự đoán của bệnh nhân so với các tác dụng dự đoán cho bác sĩ. Các thuật ngữ hiệu ứng ngẫu nhiên cho mỗi loại sẽ định lượng lượng phương sai giữa bệnh nhân và giữa các bác sĩ, nếu đó là một câu hỏi bạn quan tâm.

(Ai đó làm ơn sửa tôi nếu tôi sai!)


Tôi không chắc nó có ý nghĩa DIDnhư có cả hiệu ứng cố định đánh chặn ngẫu nhiên trong mô hình thứ 2. Hơn nữa, có nó như là một hiệu ứng cố định trong mô hình thứ nhất có nghĩa là sự lựa chọn b / t 2 điều này sẽ là về cách nghĩ về hiệu ứng của nó DID, chứ không phải liệu nó có cần được đưa vào hay không. Ở một ghi chú khác, tôi nhận thấy bạn có một mục (2); bạn có nghĩa là có một mục (1) ở đâu đó?
gung - Phục hồi Monica

Bạn hoàn toàn đúng; Tôi đã đi từ công thức glm ban đầu của OP mà không nên có DID như một hiệu ứng cố định ở vị trí số 1. Bây giờ sự lựa chọn là giữa việc coi DID như một hiệu ứng ngẫu nhiên sẽ thêm bất kỳ giá trị nào vào mô hình.
Christopher Poile

1

Các mô hình rất khác nhau. Mô hình glm đang giải quyết việc giảm độ lệch tổng thể (từ mô hình null) khi tất cả các hiệu ứng DoctorID đang được ước tính và đang được chỉ định ước tính tham số. Tất nhiên, bạn chú ý rằng Age, Married và IL6 đều có cùng số liệu thống kê Wald trong hai mô hình, phải không? Sự hiểu biết của tôi (không phải là một tinh chỉnh cao mà tôi sẽ thừa nhận) là mô hình hỗn hợp đang coi các bác sĩ là các yếu tố phiền toái hoặc tầng lớp, cụ thể là "các hiệu ứng" không thể được giả định được rút ra từ bất kỳ phân phối cha mẹ cụ thể nào. Tôi thấy không có lý do gì để nghĩ rằng sử dụng một mô hình hỗn hợp sẽ cải thiện sự hiểu biết của bạn về "hiệu ứng bác sĩ", hoàn toàn ngược lại trên thực tế.

Nếu bạn quan tâm đến tác động của Age, Married hoặc IL6, tôi sẽ tưởng tượng rằng bạn sẽ không so sánh AIC giữa hai mô hình đó mà thay vào đó là sự khác biệt trong AIC với việc loại bỏ các mối quan tâm trong cùng một cấu trúc mô hình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.