Mô hình hỗn hợp so với lỗi tiêu chuẩn gộp cho các nghiên cứu đa địa điểm - Tại sao một mô hình hỗn hợp lại hiệu quả hơn nhiều?


16

Tôi đã có một bộ dữ liệu bao gồm một loạt các trường hợp "thanh gãy" hàng tháng được tính từ một số ít các trang web. Tôi đang cố gắng để có được một ước tính tóm tắt duy nhất từ ​​hai kỹ thuật khác nhau:

Kỹ thuật 1: Lắp "thanh gãy" với Poisson GLM với biến chỉ báo 0/1 và sử dụng biến thời gian và thời gian ^ 2 để kiểm soát xu hướng theo thời gian. Ước tính của biến chỉ báo 0/1 và SE được gộp lại bằng cách sử dụng phương pháp kỹ thuật khoảnh khắc lên xuống khá thẳng hoặc sử dụng gói tlnise trong R để lấy ước tính "Bayesian". Điều này tương tự như những gì Peng và Dominici làm với dữ liệu ô nhiễm không khí, nhưng với ít trang web hơn (~ một tá).

Kỹ thuật 2: Từ bỏ một số điều khiển cụ thể theo trang web cho các xu hướng theo thời gian và sử dụng mô hình hỗn hợp tuyến tính. Đặc biệt:

lmer(cases ~ indicator + (1+month+I(month^2) + offset(log(p)), family="poisson", data=data)

Câu hỏi của tôi liên quan đến các lỗi tiêu chuẩn xuất phát từ các ước tính này. Lỗi tiêu chuẩn của Kỹ thuật 1, thực tế là sử dụng hàng tuần thay vì đặt thời gian hàng tháng và do đó cần có độ chính xác cao hơn , có lỗi tiêu chuẩn về ước tính ~ 0,206 cho phương pháp Phương pháp Khoảnh khắc và ~ 0,303 cho phương pháp tlnise.

Phương pháp lmer cho sai số chuẩn là ~ 0,09. Các ước tính hiệu ứng rất gần nhau, do đó, dường như chúng không tham gia vào các ước tính tóm tắt khác nhau nhiều như mô hình hỗn hợp có hiệu quả cao hơn nhiều.

Đó có phải là một cái gì đó hợp lý để mong đợi? Nếu vậy, tại sao các mô hình hỗn hợp hiệu quả hơn nhiều? Đây là một hiện tượng chung, hay một kết quả cụ thể của mô hình này?


Câu hỏi này rất khó trả lời mà không biết chính xác mô hình nào bạn phù hợp với Kỹ thuật của bạn 1. Bạn đề cập đến 3 khả năng, nhưng theo như tôi có thể nói, không bao giờ giải quyết một. Sau đó, bạn nói "Lỗi tiêu chuẩn của Kỹ thuật 1 [...] là ~ 0,206." Chính xác mô hình này là lỗi tiêu chuẩn cho? Bạn sẽ đăng cú pháp bạn đã sử dụng để phù hợp với mô hình này, giống như bạn đã làm cho Kỹ thuật 2? Thậm chí tốt hơn là cung cấp một ví dụ có thể lặp lại (không nhất thiết là tập dữ liệu gốc của bạn) mà chúng ta có thể tự mình phù hợp với cả hai mô hình.
Jake Westfall

@JakeWestfall Bạn nói đúng, khi tôi viết bài này lần đầu tiên, đây là một câu hỏi về ý thức khi vấn đề phát triển. Tôi sẽ thực hiện một số chỉnh sửa và xem nếu nó có thể hữu ích hơn. Thật không may, mã đã đi lang thang ở đâu đó ...
Fomite

Hoàn thành một chút dọn dẹp - thiết kế của các mô hình sử dụng các biến tương tự. Thật không may, mã, dữ liệu, vv là trên một máy khác và tôi đang ở một hội nghị. Câu hỏi gốc có thể được rút ra, tôi nghĩ, "Ước tính nhiều trang web: Các mô hình hỗn hợp luôn luôn / thường hiệu quả hơn so với gộp?"
Fomite

Câu trả lời:


5

Tôi biết đây là một câu hỏi cũ, nhưng nó tương đối phổ biến và có một câu trả lời đơn giản, vì vậy hy vọng nó sẽ hữu ích cho những người khác trong tương lai. Để hiểu sâu hơn, hãy xem khóa học của Christoph Lippert về Mô hình hỗn hợp tuyến tính kiểm tra chúng trong bối cảnh nghiên cứu liên kết toàn bộ gen ở đây . Cụ thể xem Bài giảng 5 .

Lý do mô hình hỗn hợp hoạt động tốt hơn nhiều là vì nó được thiết kế để tính đến chính xác những gì bạn đang cố gắng kiểm soát: cấu trúc dân số. "Quần thể" trong nghiên cứu của bạn là các trang web khác nhau sử dụng, ví dụ, các triển khai hơi khác nhau nhưng nhất quán của cùng một giao thức. Ngoài ra, nếu đối tượng nghiên cứu của bạn là người, những người được tổng hợp từ các trang web khác nhau ít có khả năng liên quan hơn những người từ cùng một trang, do đó, liên quan đến máu cũng có thể đóng vai trò.

N(Y|Xβ,σ2)KN(Y|Xβ+Zbạn,σ2Tôi+σg2K)

Vì bạn đang cố gắng kiểm soát cấu trúc dân số một cách rõ ràng, do đó, không có gì ngạc nhiên khi mô hình hỗn hợp tuyến tính vượt trội hơn các kỹ thuật hồi quy khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.