Sự khác biệt giữa mô hình tuyến tính tổng quát & mô hình hỗn hợp tuyến tính tổng quát


34

Tôi tự hỏi sự khác biệt giữa GLM hỗn hợp và không trộn lẫn. Chẳng hạn, trong SPSS, menu thả xuống cho phép người dùng vừa:

  • analyze-> generalized linear models-> generalized linear models &
  • analyze-> mixed models-> generalized linear

Họ có đối phó với các giá trị thiếu khác nhau?

Biến phụ thuộc của tôi là nhị phân và tôi có một số biến độc lập phân loại và liên tục.


Câu trả lời:


62

Sự ra đời của các mô hình tuyến tính tổng quát đã cho phép chúng tôi xây dựng các mô hình dữ liệu kiểu hồi quy khi phân phối biến trả lời là không bình thường - ví dụ: khi DV của bạn là nhị phân. (Nếu bạn muốn biết thêm một chút về GLiM, tôi đã viết một câu trả lời khá rộng rãi ở đây , có thể hữu ích mặc dù bối cảnh khác nhau.) Tuy nhiên, GLiM, ví dụ mô hình hồi quy logistic, giả định rằng dữ liệu của bạn là độc lập . Ví dụ, hãy tưởng tượng một nghiên cứu xem xét liệu một đứa trẻ có bị hen suyễn hay không. Mỗi đứa trẻ đóng góp mộtdữ liệu chỉ ra nghiên cứu - họ hoặc bị hen suyễn hoặc họ không. Đôi khi dữ liệu không độc lập, mặc dù. Hãy xem xét một nghiên cứu khác xem xét liệu một đứa trẻ có bị cảm lạnh ở nhiều điểm khác nhau trong năm học hay không. Trong trường hợp này, mỗi đứa trẻ đóng góp nhiều điểm dữ liệu. Có một thời gian một đứa trẻ có thể bị cảm lạnh, sau đó chúng có thể không, và sau đó chúng có thể bị cảm lạnh khác. Những dữ liệu này không độc lập vì chúng đến từ cùng một đứa trẻ. Để phân tích một cách thích hợp những dữ liệu này, chúng ta cần phải tính đến sự không độc lập này bằng cách nào đó. Có hai cách: Một cách là sử dụng các phương trình ước lượng tổng quát (mà bạn không đề cập đến, vì vậy chúng tôi sẽ bỏ qua). Một cách khác là sử dụng mô hình hỗn hợp tuyến tính tổng quát. GLiMM có thể giải thích cho sự không độc lập bằng cách thêm các hiệu ứng ngẫu nhiên (như ghi chú @MichaelCécick). Do đó, câu trả lời là tùy chọn thứ hai của bạn dành cho dữ liệu lặp lại không bình thường (hoặc nói cách khác là không độc lập). (Tôi nên đề cập, phù hợp với nhận xét của @ Macro, các mô hình hỗn hợp tuyến tính tổng quát đó bao gồm các mô hình tuyến tính như một trường hợp đặc biệt và do đó có thể được sử dụng với dữ liệu phân phối thông thường. Tuy nhiên, trong cách sử dụng thông thường, thuật ngữ này bao hàm dữ liệu không bình thường.)

Cập nhật: (OP cũng đã hỏi về GEE, vì vậy tôi sẽ viết một chút về cách cả ba liên quan đến nhau.)

Dưới đây là tổng quan cơ bản:

  • một GLiM điển hình (Tôi sẽ sử dụng hồi quy logistic như trường hợp nguyên mẫu) cho phép bạn mô hình hóa một phản ứng nhị phân độc lập như là một hàm của hiệp phương sai
  • GLMM cho phép bạn mô hình hóa một phản ứng nhị phân không độc lập (hoặc phân cụm) có điều kiện trên các thuộc tính của từng cụm riêng lẻ như là một hàm của hiệp phương sai
  • GEE cho phép bạn mô hình hóa phản ứng trung bình dân số của dữ liệu nhị phân không độc lập như là một hàm của hiệp phương sai

Vì bạn có nhiều thử nghiệm cho mỗi người tham gia, dữ liệu của bạn không độc lập; như bạn lưu ý chính xác, "[t] các loại thuốc trong một người tham gia có thể giống nhau hơn so với toàn bộ nhóm". Do đó, bạn nên sử dụng GLMM hoặc GEE.

Sau đó, vấn đề là làm thế nào để chọn liệu GLMM hoặc GEE sẽ phù hợp hơn với tình huống của bạn. Câu trả lời cho câu hỏi này phụ thuộc vào chủ đề nghiên cứu của bạn - cụ thể là mục tiêu của những suy luận mà bạn hy vọng sẽ thực hiện. Như tôi đã trình bày ở trên, với GLMM, các betas đang cho bạn biết về tác động của một thay đổi đơn vị trong các đồng biến của bạn đối với một người tham gia cụ thể, do các đặc điểm riêng của họ. Mặt khác với GEE, các betas đang cho bạn biết về tác động của một thay đổi đơn vị trong các đồng biến của bạn trên trung bình các câu trả lời của toàn bộ dân số được đề cập. Đây là một sự phân biệt khó nắm bắt, đặc biệt bởi vì không có sự phân biệt như vậy với các mô hình tuyến tính (trong trường hợp cả hai là cùng một thứ).

logit(ptôi)= =β0+β1X1+btôi
logit(p)= =ln(p1-p),     &      b~N(0,σb2)
p β0(β0+btôi)btôiβ0β1ptôilogitnhập mô tả hình ảnh ở đây
β1- tương tự cho mỗi học sinh (nghĩa là không có độ dốc ngẫu nhiên). Tuy nhiên, lưu ý rằng khả năng cơ bản của học sinh khác nhau giữa chúng - có thể là do sự khác biệt trong những thứ như IQ (nghĩa là có một đánh chặn ngẫu nhiên). Tuy nhiên, xác suất trung bình cho toàn bộ lớp học theo một hồ sơ khác với các sinh viên. Kết quả phản trực quan đáng kinh ngạc là thế này: thêm một giờ hướng dẫn có thể có tác động khá lớn đến xác suất mỗi học sinh vượt qua bài kiểm tra, nhưng có ảnh hưởng tương đối ít đến tổng tỷ lệ học sinh có thể vượt qua . Điều này là do một số sinh viên có thể đã có cơ hội vượt qua trong khi những người khác vẫn có thể có ít cơ hội.

Câu hỏi về việc bạn nên sử dụng GLMM hay GEE là câu hỏi về chức năng nào bạn muốn ước tính. Nếu bạn muốn biết về xác suất của một học sinh nhất định vượt qua (nếu, giả sử, bạn học sinh hoặc phụ huynh của học sinh), bạn muốn sử dụng GLMM. Mặt khác, nếu bạn muốn biết về ảnh hưởng đối với dân số (ví dụ, nếu bạn là giáo viên hoặc hiệu trưởng), bạn sẽ muốn sử dụng GEE.

Đối với một cuộc thảo luận chi tiết hơn về mặt toán học của tài liệu này, hãy xem câu trả lời này của @Macro.


2
Đây là một câu trả lời hay nhưng tôi nghĩ nó, đặc biệt là câu cuối cùng, dường như chỉ ra rằng bạn chỉ sử dụng GLM hoặc GLMM cho dữ liệu không bình thường mà có lẽ không được dự định, vì các mô hình tuyến tính (hỗn hợp) Gaussian thông thường cũng nằm trong loại GL (M) M.
Macro

@Macro, bạn nói đúng, tôi luôn quên điều đó. Tôi chỉnh sửa câu trả lời để làm rõ điều này. Hãy cho tôi biết nếu bạn nghĩ rằng nó cần nhiều hơn.
gung - Phục hồi Monica

Tôi cũng kiểm tra các phương trình ước tính tổng quát. Có đúng như với GLiM, GEE cho rằng dữ liệu của tôi là độc lập? Tôi có nhiều thử nghiệm cho mỗi người tham gia. Các thử nghiệm trong một người tham gia có thể giống nhau hơn so với toàn bộ nhóm.
dùng9203

@gung, Mặc dù GEE có thể tạo ra các hệ số "trung bình dân số", nhưng nếu tôi muốn ước tính Hiệu quả điều trị trung bình (ATE) trên thang đo xác suất trên toàn bộ dân số thực tế, đối với một công cụ hồi quy nhị phân quan tâm, tôi sẽ không cần phải lấy phương pháp tiếp cận chủ đề cụ thể? Cách tính ATE, theo hiểu biết của tôi, là ước tính xác suất dự đoán cho mỗi người có và không điều trị và sau đó tính trung bình những khác biệt đó. Điều này không đòi hỏi một phương pháp hồi quy có thể tạo ra xác suất dự đoán cho mỗi người (mặc dù thực tế là sau đó họ được tính trung bình)?
Yakkanomica

1
@Yakkanomica, nếu đó là những gì bạn muốn, chắc chắn.
gung - Phục hồi Monica

6

Điều quan trọng là giới thiệu các hiệu ứng ngẫu nhiên. Liên kết của Gung đề cập đến nó. Nhưng tôi nghĩ nó nên được đề cập trực tiếp. Đó là sự khác biệt chính.


+1, bạn đã đúng. Tôi nên đã rõ ràng hơn về điều đó. Tôi chỉnh sửa câu trả lời của tôi để bao gồm điểm này.
gung - Phục hồi Monica

Bất cứ khi nào tôi thêm một hiệu ứng ngẫu nhiên, chẳng hạn như chặn ngẫu nhiên vào mô hình, tôi sẽ nhận được thông báo lỗi. Tôi nghĩ rằng tôi không có đủ điểm dữ liệu để thêm hiệu ứng ngẫu nhiên. Trường hợp đó như thế nào? thông báo lỗi: glmm: Ma trận Hessian cuối cùng không xác định dương mặc dù tất cả các tiêu chí hội tụ đều được thỏa mãn. Thủ tục tiếp tục bất chấp cảnh báo này. Các kết quả tiếp theo được tạo ra dựa trên lần lặp cuối cùng. Hiệu lực của mô hình phù hợp là không chắc chắn.
dùng9203

3

Tôi đề nghị bạn cũng kiểm tra câu trả lời của một câu hỏi tôi đã hỏi cách đây một thời gian:

Mô hình tuyến tính tổng quát so với mô hình tuyến tính tổng quát (có chức năng liên kết nhận dạng?)


5
Tôi không nghĩ rằng thực sự trả lời được câu hỏi, đó là về khả năng SPSS để chạy GLM và các mô hình hiệu ứng hỗn hợp và cách nó xử lý các giá trị bị thiếu. Đây có phải là một ý kiến ​​để thay thế? Nếu không, xin vui lòng làm rõ.
chl

Xin lỗi, bài mở đầu dường như có hai "câu hỏi". 1. Tôi đang tự hỏi điều gì .... và 2. Họ có đối phó với các giá trị bị thiếu khác nhau không? Tôi đã cố gắng giúp với câu hỏi đầu tiên.
Behacad

1
Đủ công bằng. Không cần giải thích thêm, tôi vẫn nghĩ rằng điều này sẽ phù hợp hơn khi bình luận với OP.
chl
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.