Sự bất đồng lớn trong ước tính độ dốc khi các nhóm được coi là ngẫu nhiên so với cố định trong mô hình hỗn hợp


18

Tôi hiểu rằng chúng tôi sử dụng các mô hình hiệu ứng ngẫu nhiên (hoặc hiệu ứng hỗn hợp) khi chúng tôi tin rằng một số tham số mô hình thay đổi ngẫu nhiên theo một số yếu tố nhóm. Tôi có mong muốn phù hợp với một mô hình trong đó phản hồi đã được chuẩn hóa và tập trung (không hoàn hảo, nhưng khá gần) qua một yếu tố nhóm, nhưng một biến độc lập xchưa được điều chỉnh theo bất kỳ cách nào. Điều này dẫn tôi đến thử nghiệm sau (sử dụng dữ liệu bịa đặt ) để đảm bảo rằng tôi sẽ tìm thấy hiệu ứng mà tôi đang tìm kiếm nếu nó thực sự ở đó. Tôi đã chạy một mô hình hiệu ứng hỗn hợp với một đánh chặn ngẫu nhiên (giữa các nhóm được xác định bởi f) và một mô hình hiệu ứng cố định thứ hai với yếu tố f là một yếu tố dự đoán hiệu ứng cố định. Tôi đã sử dụng gói R lmercho mô hình hiệu ứng hỗn hợp và hàm cơ sởlm()cho mô hình hiệu ứng cố định. Sau đây là dữ liệu và kết quả.

Lưu ý rằng y, bất kể nhóm nào, thay đổi trong khoảng 0. Và xthay đổi nhất quán ytrong nhóm, nhưng thay đổi nhiều hơn giữa các nhóm so vớiy

> data
      y   x f
1  -0.5   2 1
2   0.0   3 1
3   0.5   4 1
4  -0.6  -4 2
5   0.0  -3 2
6   0.6  -2 2
7  -0.2  13 3
8   0.1  14 3
9   0.4  15 3
10 -0.5 -15 4
11 -0.1 -14 4
12  0.4 -13 4

Nếu bạn thích làm việc với dữ liệu, đây là dput()đầu ra:

data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4, 
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15, 
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")), 
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")

Lắp mô hình hiệu ứng hỗn hợp:

> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML 
Formula: y ~ x + (1 | f) 
   Data: data 
   AIC   BIC logLik deviance REMLdev
 28.59 30.53  -10.3       11   20.59
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.00000  0.00000 
 Residual             0.17567  0.41913 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.120992   0.069
x           0.008643   0.011912   0.726

Correlation of Fixed Effects:
  (Intr)
x 0.000 

Tôi lưu ý rằng thành phần phương sai đánh chặn được ước tính 0, và quan trọng đối với tôi, xkhông phải là một yếu tố dự báo đáng kể y.

Tiếp theo, tôi phù hợp với mô hình hiệu ứng cố định với fvai trò là công cụ dự đoán thay vì hệ số nhóm cho một lần đánh chặn ngẫu nhiên:

> summary(lm(y~ x + f,data=data))

Call:
lm(formula = y ~ x + f, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.16250 -0.03438  0.00000  0.03125  0.16250 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.38750    0.14099  -9.841 2.38e-05 ***
x            0.46250    0.04128  11.205 1.01e-05 ***
f2           2.77500    0.26538  10.457 1.59e-05 ***
f3          -4.98750    0.46396 -10.750 1.33e-05 ***
f4           7.79583    0.70817  11.008 1.13e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189 
F-statistic: 32.16 on 4 and 7 DF,  p-value: 0.0001348 

Bây giờ tôi nhận thấy rằng, như mong đợi, xlà một yếu tố dự báo quan trọng y.

Điều tôi đang tìm kiếm là trực giác về sự khác biệt này. Theo cách nào thì suy nghĩ của tôi sai ở đây? Tại sao tôi không mong đợi tìm thấy một tham số quan trọng cho xcả hai mô hình này nhưng chỉ thực sự nhìn thấy nó trong mô hình hiệu ứng cố định?


Chỉ muốn nhanh chóng chỉ ra rằng có điều gì đó không ổn với thiết lập hiệu ứng ngẫu nhiên được đưa ra phương sai trên RE = 0 (tức là / RE giải thích không có biến thể). Do đó, không có gì đáng ngạc nhiên khi xbiến không đáng kể. Tôi nghi ngờ đó là kết quả tương tự (hệ số và SE) mà bạn sẽ chạy lm(y~x,data=data). Không có thêm thời gian để chẩn đoán, nhưng muốn chỉ ra điều này.
affine

@Affine đó là một điểm tốt. Vì vậy, tôi cho rằng sự quan tâm của tôi ở đây là lý do tại sao hiệu ứng ngẫu nhiên không nắm bắt được sự thay đổi trong đánh chặn. Nếu bạn, hoặc bất cứ ai có một nhận xét sau đó, tôi hoan nghênh nó! Cảm ơn.
ndoogan

Câu trả lời:


31

Có một vài điều đang diễn ra ở đây. Đây là những vấn đề thú vị, nhưng sẽ mất một khoảng thời gian / không gian hợp lý để giải thích tất cả.

Trước hết, tất cả sẽ trở nên dễ hiểu hơn rất nhiều nếu chúng ta vẽ dữ liệu . Dưới đây là một biểu đồ phân tán trong đó các điểm dữ liệu được tô màu theo nhóm. Ngoài ra, chúng tôi có một đường hồi quy riêng cho từng nhóm cho từng nhóm, cũng như một đường hồi quy đơn giản (bỏ qua các nhóm) được in đậm:

plot(y ~ x, data=dat, col=f, pch=19)
abline(coef(lm(y ~ x, data=dat)), lwd=3, lty=2)
by(dat, dat$f, function(i) abline(coef(lm(y ~ x, data=i)), col=i$f))

dữ liệu

Mô hình hiệu ứng cố định

xxxxxxxyra khỏi phương trình. Đánh giá từ cốt truyện trên, có vẻ như chúng ta sẽ mong đợi có một số caot -statistic cao trên mỗi hệ số giả trong hồi quy này!)

xxxlm() là trung bình của 4 đường hồi quy trong cụm, tất cả đều tương đối dốc trong trường hợp này.

Mô hình hỗn hợp

xxxx không thực sự đồng ý, như trường hợp ở đây. Lưu ý: tình huống này là những gì "kiểm tra Hausman" cho các nỗ lực chẩn đoán dữ liệu bảng điều khiển!

x và đường hồi quy đơn giản bỏ qua các cụm (đường đậm nét đứt). Điểm chính xác trong phạm vi thỏa hiệp này mà mô hình hỗn hợp giải quyết phụ thuộc vào tỷ lệ của phương sai đánh chặn ngẫu nhiên so với tổng phương sai (còn được gọi là tương quan giữa các lớp). Khi tỷ lệ này gần bằng 0, ước tính mô hình hỗn hợp tiếp cận ước tính của đường hồi quy đơn giản. Khi tỷ lệ tiến đến 1, ước tính mô hình hỗn hợp tiếp cận ước tính độ dốc trung bình trong cụm.

Dưới đây là các hệ số cho mô hình hồi quy đơn giản (đường đậm nét đứt trong cốt truyện):

> lm(y ~ x, data=dat)

Call:
lm(formula = y ~ x, data = dat)

Coefficients:
(Intercept)            x  
   0.008333     0.008643  

Như bạn có thể thấy, các hệ số ở đây giống hệt với những gì chúng ta thu được trong mô hình hỗn hợp. Đây chính xác là những gì chúng tôi dự kiến ​​sẽ tìm thấy, vì như bạn đã lưu ý, chúng tôi có ước tính 0 phương sai cho các lần chặn ngẫu nhiên, làm cho tỷ lệ tương quan / nội bộ được đề cập trước đó 0. Vì vậy, ước tính mô hình hỗn hợp trong trường hợp này chỉ là ước tính hồi quy tuyến tính đơn giản, và như chúng ta có thể thấy trong cốt truyện, độ dốc ở đây ít rõ rệt hơn so với độ dốc trong cụm.

Điều này đưa chúng ta đến một vấn đề khái niệm cuối cùng ...

Tại sao phương sai của các lần chặn ngẫu nhiên được ước tính là 0?

Câu trả lời cho câu hỏi này có tiềm năng trở thành một chút kỹ thuật và khó khăn, nhưng tôi sẽ cố gắng giữ nó đơn giản và không khoa học nhất có thể (cho cả hai loại rượu của chúng tôi!). Nhưng nó có lẽ vẫn sẽ hơi dài dòng.

Tôi đã đề cập trước đó về khái niệm tương quan giữa các lớp. Đây là một cách nghĩ khác về sự phụ thuộc trongy(hoặc, chính xác hơn là các lỗi của mô hình) gây ra bởi cấu trúc phân cụm. Mối tương quan giữa lớp cho chúng ta biết mức độ trung bình của hai lỗi được rút ra từ cùng một cụm, tương ứng với độ tương tự trung bình của hai lỗi được rút ra từ bất kỳ đâu trong tập dữ liệu (nghĩa là có thể có hoặc không nằm trong cùng một cụm). Một mối tương quan giữa các lớp tích cực cho chúng ta biết rằng các lỗi từ cùng một cụm có xu hướng tương đối giống nhau hơn; nếu tôi rút ra một lỗi từ một cụm và nó có giá trị cao, thì tôi có thể mong đợi ở trên có khả năng lỗi tiếp theo tôi rút ra từ cùng một cụm cũng sẽ có giá trị cao. Mặc dù hơi ít phổ biến, tương quan giữa các lớp cũng có thể âm tính; hai lỗi được rút ra từ cùng một cụm ít giống nhau hơn (nghĩa là cách xa nhau hơn về giá trị) so với thông thường sẽ được dự kiến ​​trên toàn bộ tập dữ liệu.

Mô hình hỗn hợp mà chúng tôi đang xem xét là không sử dụng phương pháp tương quan giữa các lớp để thể hiện sự phụ thuộc trong dữ liệu. Thay vào đó, nó mô tả sự phụ thuộc về các thành phần phương sai . Điều này là tốt miễn là tương quan giữa các lớp là tích cực. Trong những trường hợp đó, mối tương quan giữa các lớp có thể dễ dàng được viết theo các thành phần phương sai, cụ thể như tỷ lệ được đề cập trước đây của phương sai đánh chặn ngẫu nhiên so với tổng phương sai. (Xem trang wiki về tương quan giữa các lớpđể biết thêm thông tin về điều này.) Nhưng thật không may, các mô hình thành phần phương sai có một thời gian khó xử lý các tình huống trong đó chúng ta có mối tương quan giữa các lớp tiêu cực. Rốt cuộc, việc viết mối tương quan giữa các lớp về các thành phần phương sai liên quan đến việc viết nó như là một tỷ lệ của phương sai, và tỷ lệ không thể âm.

yyy, trong khi các lỗi được rút ra từ các cụm khác nhau sẽ có xu hướng có sự khác biệt vừa phải hơn.) Vì vậy, mô hình hỗn hợp của bạn đang làm gì, trong thực tế, các mô hình hỗn hợp thường làm trong trường hợp này: nó đưa ra các ước tính phù hợp với mối tương quan giữa các lớp âm vì nó có thể tập hợp được, nhưng nó dừng ở giới hạn dưới của 0 (ràng buộc này thường được lập trình thành thuật toán phù hợp mô hình). Vì vậy, chúng tôi kết thúc với phương sai đánh chặn ngẫu nhiên ước tính là 0, đây vẫn không phải là một ước tính rất tốt, nhưng nó gần giống như chúng ta có thể có với kiểu mô hình thành phần phương sai này.

Vậy chúng ta có thể làm gì?

x

x

xxbxxwx

> dat <- within(dat, x_b <- tapply(x, f, mean)[paste(f)])
> dat <- within(dat, x_w <- x - x_b)
> dat
      y   x f x_b x_w
1  -0.5   2 1   3  -1
2   0.0   3 1   3   0
3   0.5   4 1   3   1
4  -0.6  -4 2  -3  -1
5   0.0  -3 2  -3   0
6   0.6  -2 2  -3   1
7  -0.2  13 3  14  -1
8   0.1  14 3  14   0
9   0.4  15 3  14   1
10 -0.5 -15 4 -14  -1
11 -0.1 -14 4 -14   0
12  0.4 -13 4 -14   1
> 
> mod <- lmer(y ~ x_b + x_w + (1|f), data=dat)
> mod
Linear mixed model fit by REML 
Formula: y ~ x_b + x_w + (1 | f) 
   Data: dat 
   AIC   BIC logLik deviance REMLdev
 6.547 8.972  1.726   -23.63  -3.453
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.000000 0.00000 
 Residual             0.010898 0.10439 
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.030135   0.277
x_b         0.005691   0.002977   1.912
x_w         0.462500   0.036908  12.531

Correlation of Fixed Effects:
    (Intr) x_b  
x_b 0.000       
x_w 0.000  0.000

xwxbyxxxbt-statistic là lớn hơn. Điều này cũng không có gì đáng ngạc nhiên vì phương sai còn lại nhỏ hơn rất nhiều trong mô hình hỗn hợp này do các hiệu ứng nhóm ngẫu nhiên ăn rất nhiều phương sai mà mô hình hồi quy đơn giản phải xử lý.

Cuối cùng, chúng ta vẫn có ước tính bằng 0 cho phương sai của các lần chặn ngẫu nhiên, vì những lý do tôi đã nêu trong phần trước. Tôi không thực sự chắc chắn tất cả những gì chúng ta có thể làm về cái đó ít nhất là không chuyển sang một số phần mềm khác lmer(), và tôi cũng không chắc điều này sẽ còn ảnh hưởng xấu đến ước tính của chúng tôi trong mô hình hỗn hợp cuối cùng này. Có lẽ một người dùng khác có thể đồng ý với một số suy nghĩ về vấn đề này.

Người giới thiệu

  • Bell, A., & Jones, K. (2014). Giải thích các hiệu ứng cố định: Mô hình hiệu ứng ngẫu nhiên của dữ liệu bảng và mặt cắt ngang chuỗi thời gian. Phương pháp và nghiên cứu khoa học chính trị. PDF
  • Bafumi, J., & Gelman, AE (2006). Lắp mô hình đa cấp khi các yếu tố dự đoán và hiệu ứng nhóm tương quan. PDF

1
Đây là một phản ứng rất chu đáo và hữu ích. Tôi đã không bắt gặp những tài liệu tham khảo này; tiêu đề của họ tấn công tôi như phải đọc vào thời điểm này trong khám phá của tôi. Tôi nợ bạn một chầu bia!
ndoogan

1
Các giới thiệu Bell & Jones là tuyệt vời. Một điều tôi đang chờ đợi, và bạn có thể có một manh mối, là liệu những sự tách biệt giữa các phần này có mở rộng dễ dàng cho các mô hình hỗn hợp tuyến tính tổng quát hay không . Có vẻ như họ nên làm vậy, nhưng tôi nghĩ rằng tôi hiểu rằng việc định tâm đồng biến trong mô hình hồi quy logistic không giống như mô hình logistic có điều kiện, mà tôi coi là kết quả nhị phân tương tự như mô hình tuyến tính hiệu ứng cố định. Có ý kiến ​​gì không?
ndoogan

1
Sẽ không phù hợp với một mô hình cận biên cho phép phương sai âm lmeràng buộc theo mặc định là> = 0? Xem câu hỏi này và câu trả lời được chọn của nó , nghĩa là phù hợp với mối tương quan đối xứng tổng hợp thông qua sự glsphù hợp hoặc cài đặt correlation = corCompSymm(form = ~1|f)tronglme
FairMiles

1
@FairMiles Có lẽ ... tại sao bạn không thử và đăng kết quả trong chuỗi nhận xét này?
Jake Westfall

3
Cảm ơn một lần nữa, @JakeWestfall. Tôi đã đọc về điều này khoảng 3 lần trong suốt một vài tháng và nó đã giúp theo nhiều cách khác nhau mỗi lần.
ndoogan

3

Sau khi suy ngẫm đáng kể, tôi tin rằng tôi đã khám phá ra câu trả lời của riêng mình. Tôi tin rằng một nhà kinh tế lượng sẽ xác định biến độc lập của tôi là nội sinh và do đó có tương quan với cả hai biến độc lập và biến phụ thuộc. Trong trường hợp này, các biến đó được bỏ qua hoặc không quan sát được . Tuy nhiên, tôi quan sát các nhóm giữa mà biến bị bỏ qua phải thay đổi.

Tôi tin rằng nhà kinh tế lượng sẽ đề xuất một mô hình hiệu ứng cố định . Đó là, một mô hình bao gồm một hình nộm cho mọi cấp độ nhóm (hoặc một đặc điểm kỹ thuật tương đương có điều kiện mô hình sao cho không cần nhiều hình nộm nhóm) trong trường hợp này. Với một mô hình hiệu ứng cố định, hy vọng là tất cả các biến không quan sát được và bất biến theo thời gian có thể được kiểm soát bằng cách điều chỉnh biến thể giữa các nhóm (hoặc trên từng cá nhân). Thật vậy, mô hình thứ hai trong câu hỏi của tôi chính xác là một mô hình hiệu ứng cố định, và như vậy đưa ra ước tính mà tôi mong đợi.

Tôi hoan nghênh ý kiến ​​sẽ tiếp tục chiếu sáng hoàn cảnh này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.