Tại sao việc giới thiệu hiệu ứng độ dốc ngẫu nhiên mở rộng SE của độ dốc?


9

Tôi đang cố gắng phân tích ảnh hưởng của Năm đối với log biến đối với các nhóm cá nhân cụ thể (tôi có 3 nhóm). Mô hình đơn giản nhất:

> fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata)
> summary(fix1)

Call:
lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5835 -0.3543 -0.0024  0.3944  4.7294 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
Group1       4.6395740  0.0466217  99.515  < 2e-16 ***
Group2       4.8094268  0.0534118  90.044  < 2e-16 ***
Group3       4.5607287  0.0561066  81.287  < 2e-16 ***
Group1:Year -0.0084165  0.0027144  -3.101  0.00195 ** 
Group2:Year  0.0032369  0.0031098   1.041  0.29802    
Group3:Year  0.0006081  0.0032666   0.186  0.85235    
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.7926 on 2981 degrees of freedom
Multiple R-squared: 0.9717,     Adjusted R-squared: 0.9716 
F-statistic: 1.705e+04 on 6 and 2981 DF,  p-value: < 2.2e-16 

Chúng ta có thể thấy Group1 đang giảm đáng kể, Nhóm2 và 3 tăng nhưng không đáng kể.

Rõ ràng cá nhân nên có hiệu lực ngẫu nhiên, vì vậy tôi giới thiệu hiệu ứng đánh chặn ngẫu nhiên cho mỗi cá nhân:

> mix1a = lmer(logInd ~ 0 + Group + Year:Group + (1|Individual), data = mydata)
> summary(mix1a)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 4727 4775  -2356     4671    4711
Random effects:
 Groups     Name        Variance Std.Dev.
 Individual (Intercept) 0.39357  0.62735 
 Residual               0.24532  0.49530 
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.1010868   45.90
Group2       4.8094268  0.1158095   41.53
Group3       4.5607287  0.1216522   37.49
Group1:Year -0.0084165  0.0016963   -4.96
Group2:Year  0.0032369  0.0019433    1.67
Group3:Year  0.0006081  0.0020414    0.30

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.252  0.000  0.000              
Group2:Year  0.000 -0.252  0.000  0.000       
Group3:Year  0.000  0.000 -0.252  0.000  0.000

Nó có tác dụng như mong đợi - SE của các sườn (hệ số Nhóm 1-3: Năm) hiện thấp hơn và SE còn lại cũng thấp hơn.

Các cá nhân cũng khác nhau về độ dốc nên tôi cũng giới thiệu hiệu ứng độ dốc ngẫu nhiên:

> mix1c = lmer(logInd ~ 0 + Group + Year:Group + (1 + Year|Individual), data = mydata)
> summary(mix1c)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 + Year | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 2941 3001  -1461     2885    2921
Random effects:
 Groups     Name        Variance  Std.Dev. Corr   
 Individual (Intercept) 0.1054790 0.324775        
            Year        0.0017447 0.041769 -0.246 
 Residual               0.1223920 0.349846        
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.0541746   85.64
Group2       4.8094268  0.0620648   77.49
Group3       4.5607287  0.0651960   69.95
Group1:Year -0.0084165  0.0065557   -1.28
Group2:Year  0.0032369  0.0075105    0.43
Group3:Year  0.0006081  0.0078894    0.08

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.285  0.000  0.000              
Group2:Year  0.000 -0.285  0.000  0.000       
Group3:Year  0.000  0.000 -0.285  0.000  0.000

Nhưng bây giờ, trái với dự đoán, SE của các sườn dốc (hệ số Nhóm 1-3: Năm) bây giờ cao hơn nhiều, thậm chí cao hơn so với không có hiệu ứng ngẫu nhiên nào cả!

Sao có thể như thế được? Tôi hy vọng rằng hiệu ứng ngẫu nhiên sẽ "ăn" sự biến thiên không giải thích được và làm tăng "tính chắc chắn" của ước tính!

Tuy nhiên, SE dư hoạt động như mong đợi - nó thấp hơn trong mô hình chặn ngẫu nhiên.

Đây là dữ liệu nếu cần.

Biên tập

Bây giờ tôi nhận ra một sự thật đáng kinh ngạc. Nếu tôi thực hiện hồi quy tuyến tính cho từng cá nhân một cách riêng biệt và sau đó chạy ANOVA trên các dốc kết quả, tôi sẽ nhận được kết quả chính xác giống như mô hình độ dốc ngẫu nhiên! Bạn có biết tại sao không?

indivSlope = c()
for (indiv in 1:103) {
    mod1 = lm(logInd ~ Year, data = mydata[mydata$Individual == indiv,])
    indivSlope[indiv] = coef(mod1)['Year']
}

indivGroup = unique(mydata[,c("Individual", "Group")])[,"Group"]


anova1 = lm(indivSlope ~ 0 + indivGroup)
summary(anova1)

Call:
lm(formula = indivSlope ~ 0 + indivGroup)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.176288 -0.016502  0.004692  0.020316  0.153086 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
indivGroup1 -0.0084165  0.0065555  -1.284    0.202
indivGroup2  0.0032369  0.0075103   0.431    0.667
indivGroup3  0.0006081  0.0078892   0.077    0.939

Residual standard error: 0.04248 on 100 degrees of freedom
Multiple R-squared: 0.01807,    Adjusted R-squared: -0.01139 
F-statistic: 0.6133 on 3 and 100 DF,  p-value: 0.6079 

Đây là dữ liệu nếu cần.


Bạn cần một hiệu ứng cố định một năm nếu bạn sẽ có một năm: hiệu ứng cố định tương tác nhóm. Nói chung, bạn không thể bao gồm một thuật ngữ tương tác mà không bao gồm các hiệu ứng chính. Bạn có thực sự nghĩ rằng không có thành phần cố định cho hiệu ứng năm? Và, nếu vậy, làm thế nào có thể có một năm cố định: tương tác nhóm?
John

Và, tại sao không có đánh chặn cố định? Bạn có thể có cả hai, cố định và ngẫu nhiên.
John

GroupiiGroupi:Yearii

@ John, đây là chủ đề ngoài câu hỏi của tôi, tuy nhiên: tin tôi đi, điều này ổn thôi, tôi đã làm rất nhiều thí nghiệm với nó. Mô hình lm đầu tiên của tôi hoàn toàn tương đương logInd ~ Year*Group, chỉ có các hệ số có hình dạng khác nhau, không có gì hơn. Phụ thuộc vào khẩu vị của bạn và hình dạng của các hệ số bạn thích, không có gì hơn. Không có loại trừ "Hiệu ứng chính năm" trong mô hình đầu tiên của tôi khi bạn viết ... logInd ~ Year*Grouphoàn toàn giống nhau, Yearhệ số sau đó không phải là hiệu ứng chính, mà là Nhóm1: Năm.
Tò mò

OK, gọn gàng, đã không coi cả 0 chặn Nhóm là phân loại.
John

Câu trả lời:


11

Tôi nghĩ vấn đề nằm ở sự mong đợi của bạn :) Lưu ý rằng khi bạn thêm một lần chặn ngẫu nhiên cho mỗi cá nhân, lỗi tiêu chuẩn của các lần chặn tăng lên. Vì mỗi cá nhân có thể có khả năng đánh chặn của riêng mình, trung bình nhóm ít chắc chắn hơn. Điều tương tự cũng xảy ra với độ dốc ngẫu nhiên: bạn không ước tính một độ dốc chung (trong nhóm) nữa, nhưng trung bình của các độ dốc khác nhau.

EDIT: Tại sao một mô hình tốt hơn không đưa ra ước tính chính xác hơn?

Chúng ta hãy nghĩ về nó theo cách khác: tại sao mô hình ban đầu đánh giá thấp lỗi tiêu chuẩn? Nó giả định sự độc lập của các quan sát không độc lập. Mô hình thứ hai làm giảm giả định đó (theo cách ảnh hưởng đến các phần chặn), và mô hình thứ ba làm thư giãn nó hơn nữa.

EDIT 2: mối quan hệ với nhiều mô hình bệnh nhân cụ thể

Quan sát của bạn là một thuộc tính đã biết (và nếu bạn chỉ có hai năm, thì mô hình hiệu ứng ngẫu nhiên sẽ tương đương với thử nghiệm t được ghép nối). Tôi không nghĩ rằng tôi có thể quản lý một bằng chứng thực sự, nhưng có lẽ viết ra hai mô hình sẽ làm cho mối quan hệ rõ ràng hơn. Chúng ta hãy bỏ qua biến nhóm, vì nó sẽ chỉ làm phức tạp ký hiệu. Tôi sẽ sử dụng các chữ cái Hy Lạp cho các hiệu ứng ngẫu nhiên, và các chữ cái Latin cho các hiệu ứng cố định.

Mô hình hiệu ứng ngẫu nhiên là ( - chủ đề, jij

Yij=a+αi+(b+βi)xij+ϵij,
(αi,βi)N(0,Σ)ϵijN(0,σ2)

Yij=ai+bixij+ϵij,
ϵijN(0,σi2)

[Lưu ý: sau đây thực sự chỉ là rửa tay:]

aia+αibib+βibibσσiαi


Cảm ơn Aniko. Bạn nói đúng, tính toán của tôi xác nhận điều đó, nhưng tôi muốn xem tại sao ... Nó có vẻ trái ngược. Tôi đã cải thiện các mô hình - bằng cách giới thiệu các hiệu ứng ngẫu nhiên tôi đã mô tả cấu trúc lỗi tốt hơn. Lỗi dư xác nhận nó - thấp hơn và thấp hơn. Vì vậy, với những mô hình chính xác hơn, tốt hơn này, tôi sẽ mong đợi độ dốc chính xác hơn ... Tôi biết tôi đã sai ở đâu đó, xin vui lòng giúp tôi xem nó.
Tò mò

Cảm ơn Aniko, đó là một quan điểm thú vị! Tôi chỉ quan tâm đến độ dốc (Nhóm *: Năm), không chặn ở đây .. vì vậy bước đầu tiên của tôi về hiệu ứng nhận thức ngẫu nhiên đã làm giảm giả định độc lập và dẫn đến SE thấp hơn .. (về độ dốc ..) và sau đó là bước tiếp theo có lẽ là quá nhiều (??) và đã làm điều ngược lại (thậm chí tệ hơn SE ..) .. có lẽ tôi cần phải suy nghĩ về nó, cảm ơn.
Tò mò

Bây giờ tôi cũng ngạc nhiên bởi sự thật rất thú vị - vui lòng xem bản chỉnh sửa của tôi. Bạn có biết tại sao không?
Tò mò

Tôi không nghĩ rằng giả định độc lập đã được nới lỏng quá nhiều! Đó là sai lầm khi bắt đầu với.
Aniko

3
Tomas, một mô hình "chính xác" không có nghĩa là các ước tính sẽ chính xác hơn. Như một ví dụ cực đoan, lấy bất kỳ mô hình không có dữ liệu nào bạn thích, chẳng hạn như mô hình dự đoán tất cả các phản hồi đều bằng không. Mô hình này là hoàn toàn chắc chắn trong ước tính của nó bằng không. Do đó, nó chính xác như người ta có thể nhận được - nhưng nó cũng có thể sai nhất có thể. Do đó, đưa ra một mô hình phạm vi lớn hơn để phù hợp với các tham số do đó thường có nghĩa là các tham số đó phù hợp với độ chính xác thấp hơn , không nhiều hơn. Một mô hình tốt hơn, bởi vì nó có thể định lượng độ không đảm bảo không được mô hình xấu hơn nắm bắt, thường có lỗi tiêu chuẩn lớn hơn.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.