Sự ra đời của các mô hình tuyến tính tổng quát đã cho phép chúng tôi xây dựng các mô hình dữ liệu kiểu hồi quy khi phân phối biến trả lời là không bình thường - ví dụ: khi DV của bạn là nhị phân. (Nếu bạn muốn biết thêm một chút về GLiM, tôi đã viết một câu trả lời khá rộng rãi ở đây , có thể hữu ích mặc dù bối cảnh khác nhau.) Tuy nhiên, GLiM, ví dụ mô hình hồi quy logistic, giả định rằng dữ liệu của bạn là độc lập . Ví dụ, hãy tưởng tượng một nghiên cứu xem xét liệu một đứa trẻ có bị hen suyễn hay không. Mỗi đứa trẻ đóng góp mộtdữ liệu chỉ ra nghiên cứu - họ hoặc bị hen suyễn hoặc họ không. Đôi khi dữ liệu không độc lập, mặc dù. Hãy xem xét một nghiên cứu khác xem xét liệu một đứa trẻ có bị cảm lạnh ở nhiều điểm khác nhau trong năm học hay không. Trong trường hợp này, mỗi đứa trẻ đóng góp nhiều điểm dữ liệu. Có một thời gian một đứa trẻ có thể bị cảm lạnh, sau đó chúng có thể không, và sau đó chúng có thể bị cảm lạnh khác. Những dữ liệu này không độc lập vì chúng đến từ cùng một đứa trẻ. Để phân tích một cách thích hợp những dữ liệu này, chúng ta cần phải tính đến sự không độc lập này bằng cách nào đó. Có hai cách: Một cách là sử dụng các phương trình ước lượng tổng quát (mà bạn không đề cập đến, vì vậy chúng tôi sẽ bỏ qua). Một cách khác là sử dụng mô hình hỗn hợp tuyến tính tổng quát. GLiMM có thể giải thích cho sự không độc lập bằng cách thêm các hiệu ứng ngẫu nhiên (như ghi chú @MichaelCécick). Do đó, câu trả lời là tùy chọn thứ hai của bạn dành cho dữ liệu lặp lại không bình thường (hoặc nói cách khác là không độc lập). (Tôi nên đề cập, phù hợp với nhận xét của @ Macro, các mô hình hỗn hợp tuyến tính tổng quát đó bao gồm các mô hình tuyến tính như một trường hợp đặc biệt và do đó có thể được sử dụng với dữ liệu phân phối thông thường. Tuy nhiên, trong cách sử dụng thông thường, thuật ngữ này bao hàm dữ liệu không bình thường.)
Cập nhật: (OP cũng đã hỏi về GEE, vì vậy tôi sẽ viết một chút về cách cả ba liên quan đến nhau.)
Dưới đây là tổng quan cơ bản:
- một GLiM điển hình (Tôi sẽ sử dụng hồi quy logistic như trường hợp nguyên mẫu) cho phép bạn mô hình hóa một phản ứng nhị phân độc lập như là một hàm của hiệp phương sai
- GLMM cho phép bạn mô hình hóa một phản ứng nhị phân không độc lập (hoặc phân cụm) có điều kiện trên các thuộc tính của từng cụm riêng lẻ như là một hàm của hiệp phương sai
- GEE cho phép bạn mô hình hóa phản ứng trung bình dân số của dữ liệu nhị phân không độc lập như là một hàm của hiệp phương sai
Vì bạn có nhiều thử nghiệm cho mỗi người tham gia, dữ liệu của bạn không độc lập; như bạn lưu ý chính xác, "[t] các loại thuốc trong một người tham gia có thể giống nhau hơn so với toàn bộ nhóm". Do đó, bạn nên sử dụng GLMM hoặc GEE.
Sau đó, vấn đề là làm thế nào để chọn liệu GLMM hoặc GEE sẽ phù hợp hơn với tình huống của bạn. Câu trả lời cho câu hỏi này phụ thuộc vào chủ đề nghiên cứu của bạn - cụ thể là mục tiêu của những suy luận mà bạn hy vọng sẽ thực hiện. Như tôi đã trình bày ở trên, với GLMM, các betas đang cho bạn biết về tác động của một thay đổi đơn vị trong các đồng biến của bạn đối với một người tham gia cụ thể, do các đặc điểm riêng của họ. Mặt khác với GEE, các betas đang cho bạn biết về tác động của một thay đổi đơn vị trong các đồng biến của bạn trên trung bình các câu trả lời của toàn bộ dân số được đề cập. Đây là một sự phân biệt khó nắm bắt, đặc biệt bởi vì không có sự phân biệt như vậy với các mô hình tuyến tính (trong trường hợp cả hai là cùng một thứ).
logit ( ptôi) = β0+ β1X1+ btôi
logit ( p ) = ln( p1 - p) ,&B~ N ( 0 , σ2b)
p β0( β0+ btôi)btôiβ0β1ptôilogitβ1- tương tự cho mỗi học sinh (nghĩa là không có độ dốc ngẫu nhiên). Tuy nhiên, lưu ý rằng khả năng cơ bản của học sinh khác nhau giữa chúng - có thể là do sự khác biệt trong những thứ như IQ (nghĩa là có một đánh chặn ngẫu nhiên). Tuy nhiên, xác suất trung bình cho toàn bộ lớp học theo một hồ sơ khác với các sinh viên. Kết quả phản trực quan đáng kinh ngạc là thế này:
thêm một giờ hướng dẫn có thể có tác động khá lớn đến xác suất mỗi học sinh vượt qua bài kiểm tra, nhưng có ảnh hưởng tương đối ít đến tổng tỷ lệ học sinh có thể vượt qua . Điều này là do một số sinh viên có thể đã có cơ hội vượt qua trong khi những người khác vẫn có thể có ít cơ hội.
Câu hỏi về việc bạn nên sử dụng GLMM hay GEE là câu hỏi về chức năng nào bạn muốn ước tính. Nếu bạn muốn biết về xác suất của một học sinh nhất định vượt qua (nếu, giả sử, bạn là học sinh hoặc phụ huynh của học sinh), bạn muốn sử dụng GLMM. Mặt khác, nếu bạn muốn biết về ảnh hưởng đối với dân số (ví dụ, nếu bạn là giáo viên hoặc hiệu trưởng), bạn sẽ muốn sử dụng GEE.
Đối với một cuộc thảo luận chi tiết hơn về mặt toán học của tài liệu này, hãy xem câu trả lời này của @Macro.