Tại sao tôi nhận được phương sai không có hiệu ứng ngẫu nhiên trong mô hình hỗn hợp của mình, mặc dù có một số thay đổi trong dữ liệu?


22

Chúng tôi đã chạy một hồi quy logistic hiệu ứng hỗn hợp bằng cú pháp sau;

# fit model
fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0,
             family = binomial(link="logit"))
# model output
summary(fm0)

Chủ đề và Mục là các hiệu ứng ngẫu nhiên. Chúng tôi đang nhận được một kết quả kỳ lạ là hệ số và độ lệch chuẩn cho thuật ngữ chủ đề đều bằng không;

Generalized linear mixed model fit by maximum likelihood (Laplace
Approximation) [glmerMod]
Family: binomial  ( logit )
Formula: GoalEncoding ~ 1 + Group + (1 | Subject) + (1 | Item)
Data: exp0

AIC      BIC      logLik deviance df.resid 
449.8    465.3   -220.9    441.8      356 

Scaled residuals: 
Min     1Q Median     3Q    Max 
-2.115 -0.785 -0.376  0.805  2.663 

Random effects:
Groups  Name        Variance Std.Dev.
Subject (Intercept) 0.000    0.000   
Item    (Intercept) 0.801    0.895   
Number of obs: 360, groups:  Subject, 30; Item, 12

Fixed effects:
                Estimate Std. Error z value Pr(>|z|)    
 (Intercept)     -0.0275     0.2843    -0.1     0.92    
 GroupGeMo.EnMo   1.2060     0.2411     5.0  5.7e-07 ***
 ---
 Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

 Correlation of Fixed Effects:
             (Intr)
 GroupGM.EnM -0.002

Điều này không nên xảy ra vì rõ ràng có sự khác biệt giữa các đối tượng. Khi chúng ta chạy phân tích tương tự trong stata

xtmelogit goal group_num || _all:R.subject || _all:R.item

Note: factor variables specified; option laplace assumed

Refining starting values: 

Iteration 0:   log likelihood = -260.60631  
Iteration 1:   log likelihood = -252.13724  
Iteration 2:   log likelihood = -249.87663  

Performing gradient-based optimization: 

Iteration 0:   log likelihood = -249.87663  
Iteration 1:   log likelihood = -246.38421  
Iteration 2:   log likelihood =  -245.2231  
Iteration 3:   log likelihood = -240.28537  
Iteration 4:   log likelihood = -238.67047  
Iteration 5:   log likelihood = -238.65943  
Iteration 6:   log likelihood = -238.65942  

Mixed-effects logistic regression               Number of obs      =       450
Group variable: _all                            Number of groups   =         1

                                                Obs per group: min =       450
                                                               avg =     450.0
                                                               max =       450

Integration points =   1                        Wald chi2(1)       =     22.62
Log likelihood = -238.65942                     Prob > chi2        =    0.0000

------------------------------------------------------------------------------
        goal |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
   group_num |   1.186594    .249484     4.76   0.000     .6976147    1.675574
       _cons |  -3.419815   .8008212    -4.27   0.000    -4.989396   -1.850234
------------------------------------------------------------------------------

------------------------------------------------------------------------------
  Random-effects Parameters  |   Estimate   Std. Err.     [95% Conf. Interval]
-----------------------------+------------------------------------------------
_all: Identity               |
               sd(R.subject) |   7.18e-07   .3783434             0           .
-----------------------------+------------------------------------------------
_all: Identity               |
                 sd(R.trial) |   2.462568   .6226966      1.500201    4.042286
------------------------------------------------------------------------------
LR test vs. logistic regression:     chi2(2) =   126.75   Prob > chi2 = 0.0000

Note: LR test is conservative and provided only for reference.
Note: log-likelihood calculations are based on the Laplacian approximation.

kết quả như mong đợi với hệ số khác không / se cho thuật ngữ Chủ đề.

Ban đầu chúng tôi nghĩ rằng điều này có thể có liên quan đến việc mã hóa thuật ngữ Chủ đề, nhưng việc thay đổi điều này từ một chuỗi thành một số nguyên không tạo ra bất kỳ sự khác biệt nào.

Rõ ràng là phân tích không hoạt động đúng, nhưng chúng tôi không thể xác định được nguồn gốc của những khó khăn. (NB một người khác trên diễn đàn này đã gặp phải một vấn đề tương tự, nhưng chủ đề này vẫn chưa được trả lời liên kết đến câu hỏi )


2
Bạn nói điều này không nên xảy ra vì "rõ ràng có sự khác biệt giữa các đối tượng" nhưng vì chúng ta không biết điều gì subjecthoặc bất cứ điều gì khác về các biến này, nên nó không "rõ ràng" đối với chúng ta "! Ngoài ra," hệ số khác không " đối với thuật ngữ chủ đề "từ phân tích Stata của bạn là 7.18e-07! Tôi đoán về mặt kỹ thuật, đó là" khác không ", nhưng nó cũng không quá xa 0 ...!
smillig

Rất cám ơn đã quan sát. Đối tượng là những người tham gia trong một nghiên cứu và chắc chắn có sự khác biệt trong hiệu suất. Điểm trung bình đúng 39%, với độ lệch chuẩn là 11%. Tôi hy vọng điều này sẽ xuất hiện lớn hơn 0.000 trong số liệu thống kê được báo cáo, nhưng có thể sai. Có, tất nhiên 7.18e-07 tương đương với 0.000 và 0.000 không nhất thiết phải bằng không.
Nick Riches

1
Bao nhiêu lần mỗi đối tượng được kiểm tra / lấy mẫu? Không biết các khía cạnh thực chất trong nghiên cứu của bạn, nếu Stata nói với bạn rằng biến thể trong các đối tượng là 0,000000718 (với sai số chuẩn là 0,378) và R nói với bạn rằng đó là 0,000, không phải câu chuyện ở đây thực sự không có bất kỳ biến thể nào ở cấp độ môn học? Cũng lưu ý rằng Stata không cung cấp cho bạn khoảng tin cậy cho biến thể chủ đề.
smillig

Cảm ơn một lần nữa cho ý kiến. Đối tượng đã được thử nghiệm trong 11 lần. Tôi đoán điều này có nghĩa là một khi các hiệu ứng nhóm và vật phẩm được tính đến, có rất ít sự khác biệt giữa những người tham gia. Có vẻ hơi "nghi ngờ", nhưng tôi đoán có sự thống nhất giữa hai phân tích khác nhau?
Nick Riches

Câu trả lời:


27

Điều này được thảo luận ở một số độ dài tại https://bbolker.github.io/mixedmodels-misc/glmmFAQ.html (tìm kiếm "mô hình số ít"); nó phổ biến, đặc biệt là khi có một số lượng nhỏ các nhóm (mặc dù 30 không đặc biệt nhỏ trong bối cảnh này).

Một điểm khác biệt giữa lme4và nhiều gói khác là nhiều gói, bao gồm cả gói lme4trước nlme, xử lý thực tế là ước tính phương sai phải không âm bằng cách khớp phương sai trên thang đo log: điều đó có nghĩa là ước tính phương sai không thể chính xác bằng 0, chỉ là rất rất nhỏ. lme4, ngược lại, sử dụng tối ưu hóa bị ràng buộc, do đó, nó có thể trả về các giá trị chính xác bằng 0 (xem http://arxiv.org/abs/1406.5823 trang 24 để biết thêm thảo luận). http://rpub.com/bbolker/6226 đưa ra một ví dụ.

Cụ thể, nhìn kỹ vào kết quả phương sai giữa các chủ đề của bạn từ Stata, bạn có ước tính 7,18e-07 (so với mức chặn -3,4) với độ lệch chuẩn Wald là .3783434 (về cơ bản là vô dụng trong trường hợp này!) Và CI 95% được liệt kê là "0"; về mặt kỹ thuật là "khác không", nhưng nó gần bằng 0 vì chương trình sẽ báo cáo ...

Điều nổi tiếng và có thể chứng minh về mặt lý thuyết (ví dụ Stram và Lee Biometrics 1994) rằng phân phối null cho các thành phần phương sai là hỗn hợp của một khối điểm ('spike') ở mức 0 và phân phối chi bình phương từ 0. Không có gì đáng ngạc nhiên (nhưng tôi không biết nếu nó đã được chứng minh / được biết đến nhiều), phân phối lấy mẫu của các ước tính thành phần phương sai thường tăng đột biến ở mức 0 ngay cả khi giá trị thực không bằng 0 - xem ví dụ: http://rpub.com/ bbolker / 4187 cho một ví dụ hoặc ví dụ cuối cùng trong ?bootMertrang:

library(lme4)
library(boot)
## Check stored values from a longer (1000-replicate) run:
load(system.file("testdata","boo01L.RData",package="lme4"))
plot(boo01L,index=3) 

nhập mô tả hình ảnh ở đây


2
+1. Một câu trả lời hay khác nằm trong chủ đề chị em: stats.stackexchange.com/a/34979 (Tôi sẽ để lại liên kết này cho độc giả tương lai).
amip nói phục hồi Monica

13

Tôi không nghĩ có vấn đề gì. Bài học từ đầu ra mô hình là mặc dù có sự khác biệt "rõ ràng" trong hiệu suất chủ thể, nhưng mức độ của biến thể chủ đề này có thể được giải thích đầy đủ hoặc hầu như đầy đủ chỉ bằng thuật ngữ phương sai còn lại. Không có đủ biến thể cấp chủ đề bổ sung để đảm bảo thêm hiệu ứng ngẫu nhiên cấp chủ đề bổ sung để giải thích tất cả các biến thể quan sát được.

Nghĩ theo cách này. Hãy tưởng tượng chúng ta đang mô phỏng dữ liệu thử nghiệm theo mô hình tương tự này. Chúng tôi thiết lập các tham số sao cho có biến thể dư trên cơ sở từng thử nghiệm, nhưng 0 biến thể ở cấp độ chủ đề (nghĩa là tất cả các đối tượng đều có cùng một "giá trị trung bình thực", cùng với lỗi). Bây giờ mỗi lần chúng ta mô phỏng dữ liệu từ bộ thông số này, tất nhiên chúng ta sẽ thấy rằng các đối tượng không có hiệu suất chính xác như nhau. Một số kết thúc với điểm thấp, một số có điểm cao. Nhưng tất cả chỉ là do biến thể cấp độ thử nghiệm còn lại. Chúng tôi "biết" (nhờ vào việc xác định các tham số mô phỏng) rằng thực sự không có bất kỳ biến thể cấp độ chủ đề nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.