Khi nào nên sử dụng các phương trình ước lượng tổng quát so với các mô hình hiệu ứng hỗn hợp?


63

Tôi đã khá vui vẻ sử dụng các mô hình hiệu ứng hỗn hợp trong một thời gian với dữ liệu theo chiều dọc. Tôi ước tôi có thể phù hợp với các mối quan hệ AR trong lmer (Tôi nghĩ rằng tôi đúng rằng tôi không thể làm điều này?) Nhưng tôi không nghĩ nó cực kỳ quan trọng vì vậy tôi không quá lo lắng.

Tôi vừa bắt gặp các phương trình ước tính tổng quát (GEE) và chúng dường như cung cấp sự linh hoạt hơn nhiều so với các mô hình ME.

Có nguy cơ đặt một câu hỏi quá chung chung, có lời khuyên nào là tốt hơn cho các nhiệm vụ khác nhau không? Tôi đã thấy một số bài báo so sánh chúng, và chúng có xu hướng ở dạng:

"Trong lĩnh vực chuyên môn cao này, không sử dụng GEE cho X, không sử dụng mô hình ME cho Y".

Tôi không tìm thấy lời khuyên nào chung chung hơn. Bất cứ ai có thể khai sáng cho tôi?

Cảm ơn bạn!


1
"Chúng dường như mang lại sự linh hoạt hơn rất nhiều" ... Chà, chúng cũng khác nhau trong cách tiếp cận vì GEE được sử dụng để phù hợp với phân phối cận biên, trái với cách tiếp cận có điều kiện thường được quan tâm khi sử dụng GLMM.
chl


Lưu ý rằng glmmPQLcũng có thể phù hợp với cấu trúc tương quan AR
Tom Wenseleers

Mối quan hệ AR là gì?
Học thống kê bằng ví dụ

@incodeveritas Cấu trúc hiệp phương sai tự động
Tommyixi

Câu trả lời:


56

Sử dụng GEE khi bạn quan tâm đến việc phát hiện ra hiệu ứng trung bình dân số của hiệp phương sai so với hiệu ứng cụ thể riêng lẻ. Hai điều này chỉ tương đương trong các mô hình tuyến tính, nhưng không phải là phi tuyến tính (ví dụ logistic). Để thấy điều này, ví dụ, mô hình logistic hiệu ứng ngẫu nhiên của quan sát thứ của chủ đề thứ , ;jiYij

log(pij1pij)=μ+ηi

trong đó là hiệu ứng ngẫu nhiên cho chủ đề và .ηiN(0,σ2)ipij=P(Yij=1|ηi)

Nếu bạn đã sử dụng một mô hình hiệu ứng ngẫu nhiên trên các dữ liệu này, thì bạn sẽ có được ước tính tính đến thực tế rằng một nhiễu loạn phân phối bằng 0 thông thường được áp dụng cho từng cá nhân, làm cho nó trở nên cụ thể.μ

Nếu bạn đã sử dụng GEE trên các dữ liệu này, bạn sẽ ước tính tỷ lệ cược nhật ký trung bình dân số. Trong trường hợp này đó sẽ là

ν=log(Eη(11+eμηi)1Eη(11+eμηi))

νμ , nói chung. Ví dụ: nếu và , thì . Mặc dù các hiệu ứng ngẫu nhiên có nghĩa là 0 trên thang đo được chuyển đổi (hoặc được liên kết ), nhưng hiệu ứng của chúng không có nghĩa là 0 trên thang đo ban đầu của dữ liệu. Hãy thử mô phỏng một số dữ liệu từ mô hình hồi quy logistic hiệu ứng hỗn hợp và so sánh mức trung bình dân số với logit nghịch đảo của phần chặn và bạn sẽ thấy rằng chúng không bằng nhau, như trong ví dụ này. Sự khác biệt này trong việc giải thích các hệ số là sự khác biệt cơ bản giữa các mô hình hiệu ứng ngẫu nhiên và GEE .μ=1σ2=1ν.83

Chỉnh sửa: Nói chung, một mô hình hiệu ứng hỗn hợp không có dự đoán có thể được viết là

ψ(E(Yij|ηi))=μ+ηi

trong đó là một hàm liên kết. Bất cứ khi nàoψ

ψ(Eη(ψ1(E(Yij|ηi))))Eη(E(Yij|ηi))

sẽ có sự khác biệt giữa các hệ số trung bình dân số (GEE) và các hệ số cụ thể riêng lẻ (mô hình hiệu ứng ngẫu nhiên). Nghĩa là, trung bình thay đổi bằng cách chuyển đổi dữ liệu, tích hợp các hiệu ứng ngẫu nhiên trên thang đo được chuyển đổi, và sau đó chuyển đổi trở lại. Lưu ý rằng trong mô hình tuyến tính, (nghĩa là ), đẳng thức giữ, vì vậy chúng là tương đương.ψ(x)=x

Chỉnh sửa 2: Điều đáng chú ý là các lỗi tiêu chuẩn kiểu bánh sandwich "mạnh mẽ" do mô hình GEE tạo ra cung cấp khoảng tin cậy tiệm cận hợp lệ (ví dụ: chúng thực sự chiếm 95% thời gian) ngay cả khi cấu trúc tương quan được chỉ định trong mô hình không chính xác.

Chỉnh sửa 3: Nếu bạn quan tâm đến việc hiểu cấu trúc liên kết trong dữ liệu, ước tính GEE của các hiệp hội nổi tiếng là không hiệu quả (và đôi khi không nhất quán). Tôi đã thấy một tài liệu tham khảo cho điều này nhưng không thể đặt nó ngay bây giờ.


3
(+1) Về lần chỉnh sửa thứ 2 của bạn, tôi sẽ thêm các công cụ ước tính phương sai dựa trên mô hình sẽ hoạt động tốt hơn với một số lượng nhỏ cụm (hoặc chúng ta có thể sử dụng công cụ ước tính Jacknife). Để tham khảo, tôi luôn chỉ đến gbi.agrsci.dk/statistic/cifts/phd07/m vật liệu / Day10 , trong đó có các ghi chú bài giảng rất hay (nền tảng, bao gồm so sánh các cách tiếp cận GEE so với GLMM + minh họa trong R) .
chl

Wow, thật là một câu trả lời tuyệt vời. Cảm ơn rất nhiều. Đó hoàn toàn là những gì tôi đang tìm kiếm. Và cảm ơn chl quá cho liên kết. +10 internets cho cả hai bạn.
Chris Beeley

Đừng GEE cũng cho rằng các hiệu ứng cấp cao hơn là các tham số phiền toái? Dường như với tôi đó là một sự khác biệt quan trọng khác - nếu một người quan tâm đến những hiệu ứng đó, thì GEE sẽ không cung cấp cho bạn. Ngoài ra, nếu bạn không thoải mái đưa ra các giả định phân phối đó, thì có lẽ GEE sẽ thích hợp hơn.
robin.datadrivers

Liên kết mà @chl cung cấp đã chết: / (sáu năm sau là loại dự kiến, phải không?)
Guilherme Marthe

@GuilhermeMarthe Bắt tốt! Thật không may, tôi liên kết với cùng một tài liệu trong một chủ đề khác . Tôi thấy hai tùy chọn: tham khảo gói geepack R (được phát triển bởi cùng hai tác giả) hoặc sử dụng WayBack Machine trong thời điểm hiện tại.
chl

10

GEE trong tâm trí của tôi là hữu ích nhất khi chúng ta không sử dụng mô hình Bayes và khi không có giải pháp khả năng đầy đủ. Ngoài ra, GEE có thể yêu cầu kích thước mẫu lớn hơn để có đủ chính xác và dữ liệu theo chiều dọc không bị thiếu ngẫu nhiên. GEE giả định bị thiếu hoàn toàn một cách ngẫu nhiên trong khi các phương pháp khả năng (ví dụ mô hình hiệu ứng hỗn hợp hoặc bình phương tối thiểu tổng quát) giả sử chỉ thiếu ngẫu nhiên.


1

Bạn có thể tìm thấy một cuộc thảo luận kỹ lưỡng và các ví dụ cụ thể trong Fitzmaurice, Laird và Ware, Phân tích theo chiều dọc được áp dụng , John Wiley & Sons, 2011, tái bản lần 2, Chương 11-16.

Theo các ví dụ, bạn có thể tìm thấy các bộ dữ liệu và các chương trình SAS / Stata / R trong trang web đồng hành .


2
Bạn có thể tóm tắt những điểm chính của cuốn sách này?
chl

2
Tôi muốn nói rằng Macro đã thực hiện nó ;-) Trong cuốn sách bạn có thể tìm thấy cuộc thảo luận dài hơn và chi tiết hơn, một số ví dụ phân tích, số và đồ họa, và một số điểm nữa, trong số đó có những gì Frank Mitchell đã thêm vào. Bạn cũng có thể xem blog của Gelman .
Sergio
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.