Giải thích ba hình thức của một mô hình hỗn hợp của người Viking


19

Có một sự khác biệt khiến tôi vấp ngã với các mô hình hỗn hợp, và tôi tự hỏi liệu tôi có thể hiểu rõ hơn về nó không. Giả sử bạn đã có một mô hình hỗn hợp của dữ liệu đếm. Có một biến bạn biết bạn muốn là hiệu ứng cố định (A) và biến khác theo thời gian (T), được nhóm lại bằng cách nói biến "Trang web".

Như tôi hiểu nó:

glmer(counts ~ A + T, data=data, family="Poisson") là một mô hình hiệu ứng cố định.

glmer(counts ~ (A + T | Site), data=data, family="Poisson") là một mô hình hiệu ứng ngẫu nhiên.

Câu hỏi của tôi là khi bạn có một cái gì đó như:

glmer(counts ~ A + T + (T | Site), data=data, family="Poisson")T là gì? Có phải là một hiệu ứng ngẫu nhiên? Một hiệu ứng cố định? Điều gì thực sự được thực hiện bằng cách đặt T ở cả hai nơi?

Khi nào một cái gì đó chỉ xuất hiện trong phần hiệu ứng ngẫu nhiên của công thức mô hình?

Câu trả lời:


22

Điều này có thể trở nên rõ ràng hơn bằng cách viết ra công thức mô hình cho mỗi trong số ba mô hình này. Đặt Yij là quan sát cho người i trong trang j trong mỗi mô hình và xác định Aij,Tij tương tự để chỉ các biến trong mô hình của bạn.

glmer(counts ~ A + T, data=data, family="Poisson") là người mẫu

log(E(Yij))=β0+β1Aij+β2Tij

mà chỉ là một mô hình hồi quy poisson bình thường.

glmer(counts ~ (A + T|Site), data=data, family="Poisson") là người mẫu

log(E(Yij))=α0+ηj0+ηj1Aij+ηj2Tij

nơi là hiệu ứng ngẫu nhiên mà được chia sẻ bởi mỗi quan sát được thực hiện bởi các cá nhân từ trang web j . Các hiệu ứng ngẫu nhiên này được phép tương quan tự do (nghĩa là không có hạn chế nào được thực hiện trên Σ ) trong mô hình bạn đã chỉ định. Để áp đặt sự độc lập, bạn phải đặt chúng trong các dấu ngoặc khác nhau, ví dụ nhưsẽ làm điều đó. Mô hình này giả định rằng log ( E ( Y i jηj=(ηj0,ηj1,ηj2)N(0,Σ)jΣ(A-1|Site) + (T-1|Site) + (1|Site) α 0 cho tất cả các trang nhưng mỗi trang có độ lệch ngẫu nhiên ( η j 0 ) và có mối quan hệ tuyến tính ngẫu nhiên với cả A i j , T i j .log(E(Yij))α0ηj0Aij,Tij

glmer(counts ~ A + T + (T|Site), data=data, family="Poisson") là người mẫu

log(E(Yij))=(θ0+γj0)+θ1Aij+(θ2+γj1)Tij

Vì vậy bây giờ có một số mối quan hệ "trung bình" với A i j , T i j , được đưa ra bởi những tác động cố định q 0 , θ 1 , θ 2 nhưng mối quan hệ đó là khác nhau cho mỗi trang web và những khác biệt được chụp bởi các tác động ngẫu nhiên, γ j 0 , γ j 1 , γ j 2log(E(Yij))Aij,Tijθ0,θ1,θ2γj0,γj1,γj2. Đó là, đường cơ sở được dịch chuyển ngẫu nhiên và độ dốc của hai biến được dịch ngẫu nhiên và mọi người từ cùng một trang đều có chung một sự thay đổi ngẫu nhiên.

T là gì? Có phải là một hiệu ứng ngẫu nhiên? Một hiệu ứng cố định? Điều gì thực sự được thực hiện bằng cách đặt T ở cả hai nơi?

là một trong những đồng biến của bạn. Nó không phải là một hiệu ứng ngẫu nhiên -là một hiệu ứng ngẫu nhiên. Có một hiệu ứng cố định của T khác nhau tùy thuộc vào hiệu ứng ngẫu nhiên được trao bởi- γ j 1 trong mô hình trên. Những gì được thực hiện bằng cách bao gồm hiệu ứng ngẫu nhiên này là cho phép sự không đồng nhất giữa các trang web trong mối quan hệ giữa T nhật kýTSiteTSiteγj1T .log(E(Yij))

Khi nào một cái gì đó chỉ xuất hiện trong phần hiệu ứng ngẫu nhiên của công thức mô hình?

Đây là một vấn đề về những gì có ý nghĩa trong bối cảnh của ứng dụng.

Về việc đánh chặn - bạn nên giữ việc đánh chặn cố định trong đó vì rất nhiều lý do (xem, ví dụ, ở đây ); re: đánh chặn ngẫu nhiên, , điều này chủ yếu đóng vai trò tạo ra mối tương quan giữa các quan sát được thực hiện tại cùng một địa điểm. Nếu nó không có ý nghĩa cho sự tương quan như vậy tồn tại, thì nên loại bỏ hiệu ứng ngẫu nhiên.γj0

Về độ dốc ngẫu nhiên, một mô hình chỉ có độ dốc ngẫu nhiên và không có độ dốc cố định phản ánh niềm tin rằng, đối với mỗi trang web, có một số mối quan hệ giữa và hiệp phương sai của bạn cho mỗi trang web, nhưng nếu bạn tính trung bình hiệu ứng trên tất cả các trang web, sau đó không có mối quan hệ. Ví dụ: nếu bạn có độ dốc ngẫu nhiên trong T nhưng không có độ dốc cố định, thì điều này sẽ giống như nói rằng thời gian, trung bình, không có tác dụng (ví dụ: không có xu hướng thế tục trong dữ liệu) nhưng mỗi xuhướng theo hướng ngẫu nhiên theo thời gian, mà có thể có ý nghĩa. Một lần nữa, nó phụ thuộc vào ứng dụng.log(E(Yij))TSite

Lưu ý rằng bạn có thể phù hợp với mô hình có và không có hiệu ứng ngẫu nhiên để xem điều này có xảy ra hay không - bạn sẽ thấy không có hiệu ứng nào trong mô hình cố định nhưng hiệu ứng ngẫu nhiên đáng kể trong mô hình tiếp theo. Tôi phải cảnh báo bạn rằng các quyết định như thế này thường được đưa ra tốt hơn dựa trên sự hiểu biết về ứng dụng hơn là thông qua lựa chọn mô hình.


2
(+1): viết ra công thức mô hình cho mỗi mô hình thực sự là cách tốt nhất để làm cho các ký hiệu R trở nên minh bạch hơn; làm tốt lắm!
ocram

@Macro Một câu hỏi về các phương trình trên (cảm ơn họ btw) - họ cũng có thuật ngữ lỗi thông thường trong đó? Nếu vậy, thuật ngữ đó là gì?
Fomite

2
Xin chào - một cách để viết GLM là mô hình cho (hoặc phiên bản 'được liên kết') như tôi đã làm ở đây. Không có thuật ngữ lỗi cho giá trị mong đợi, nếu mô hình được chỉ định chính xác. Để trả lời câu hỏi của bạn, trong GLMs chúng tôi đang xác định phân phối của Y i j | X . Tính ngẫu nhiên "còn sót lại" trong mô hình tuyến tính được biểu hiện bằng thuật ngữ lỗi phân phối thông thường. Tuy nhiên, trong các GLM phi tuyến tính (ví dụ poisson, logistic), có sự ngẫu nhiên "được xây dựng" kể từ khi biết tỷ lệ của một poisson hoặc một thử nghiệm thành công của một thử nghiệm bernoulli không cho phép bạn dự đoán một nhận thức mà không có lỗi. Hi vọng điêu nay co ich.E(Yij|X)Yij|X
Macro

11

Bạn nên lưu ý rằng Tkhông có điều khoản nào trong mô hình của bạn là thuật ngữ hiệu ứng ngẫu nhiên, mà là hiệu ứng cố định. Hiệu ứng ngẫu nhiên là chỉ những hiệu ứng xuất hiện sau |trong một lmercông thức!

Một cuộc thảo luận kỹ lưỡng hơn về những gì đặc điểm kỹ thuật này bạn có thể tìm thấy trong câu hỏi faq lmer này .

Từ câu hỏi này, mô hình của bạn sẽ đưa ra những điều sau (cho hiệu ứng cố định của bạn T):

  • Độ dốc toàn cầu
  • Một thuật ngữ độ dốc ngẫu nhiên chỉ định độ lệch so với độ dốc tổng thể cho từng cấp độ Site
  • Sự tương quan giữa các độ dốc ngẫu nhiên.

Và như đã nói bởi @ mark999, đây thực sự là một đặc điểm kỹ thuật phổ biến. Trong các thiết kế biện pháp lặp lại, bạn thường muốn có độ dốc và tương quan ngẫu nhiên cho tất cả các yếu tố đo lường lặp lại (bên trong đối tượng).

Xem bài viết sau để biết một số ví dụ (mà tôi có xu hướng luôn luôn trích dẫn ở đây):

Judd, CM, Westfall, J., & Kenny, DA (2012). Xử lý các kích thích như một yếu tố ngẫu nhiên trong tâm lý học xã hội: Một giải pháp mới và toàn diện cho một vấn đề phổ biến nhưng phần lớn bị bỏ qua. Tạp chí tính cách và tâm lý xã hội , 103 (1), 54 Kho69. doi: 10.1037 / a0028347


2
Một tài liệu tham khảo tương tự từ sinh thái học: Schielzeth, Holger và Wolfgang Forstmeier. 2009. Kết luận về phạm vi hỗ trợ vượt trội: Ước tính quá tự tin trong các mô hình hỗn hợp. doi: 10.1093 / Beheco / arn145. Beheco.oxfordjournals.org/content/20/2/416 .
Ben Bolker

1

Một cái gì đó chỉ xuất hiện trong phần ngẫu nhiên khi bạn không quan tâm đặc biệt đến tham số của nó, nhưng cần bao gồm nó để tránh dữ liệu phụ thuộc. Ví dụ, nếu trẻ em được lồng trong các lớp học, bạn thường chỉ muốn trẻ em như một hiệu ứng ngẫu nhiên.


1
Có thể tôi đang hiểu nhầm bạn, nhưng tôi đã nghĩ rằng việc có các hiệu ứng cố định và ngẫu nhiên cho cùng một biến là phổ biến hơn một biến chỉ có hiệu ứng ngẫu nhiên. Có các hiệu ứng cố định và ngẫu nhiên cho cùng một biến không phải là hiếm trong cuốn sách Pinheiro và Bates.
đánh dấu999

2
@MichaelCécick theo tôi hiểu, nếu bạn có hiệu ứng cố định và hiệu ứng ngẫu nhiên cho cùng một biến, thì hiệu ứng cố định là hiệu ứng tổng thể trong dân số, trong khi hiệu ứng ngẫu nhiên cho phép tác động khác nhau của biến đối với từng đối tượng. Có một số ví dụ trong Pinheiro & Bates.
đánh dấu999

2
@PeterFlom, re: "nếu trẻ em được lồng trong các lớp học, bạn thường chỉ muốn trẻ em như một hiệu ứng ngẫu nhiên." Tôi nghĩ bạn có nghĩa là lớp học là hiệu ứng ngẫu nhiên. Trừ khi có thêm lồng nhau trong dữ liệu (ví dụ: các phép đo lặp lại ở trẻ em) thì các hiệu ứng ngẫu nhiên ở cấp độ trẻ em không được xác định.
Macro

1
@macro Vâng, đó là những gì tôi muốn nói, xin lỗi. Thuật ngữ trở nên rất khó hiểu! Đó có thể là lý do tại sao Gelman tránh các thuật ngữ 'cố định' và 'ngẫu nhiên'
Peter Flom - Tái lập Monica

2
@Michael, tôi đồng ý với bạn. Trong các loại mô hình phân cấp này, các hiệu ứng ngẫu nhiên được xác định bởi một biến nhóm (trái ngược với các mô hình đa biến khác như các tập dữ liệu được lập chỉ mục không gian, trong đó biến 'nhóm' liên tục thay đổi). Trong câu hỏi của OP, Sitesẽ được gọi là hiệu ứng ngẫu nhiên, không Thay Ahoặc bất cứ điều gì khác. Nghĩ về nó theo cách đó, Sitehiệu quả rõ ràng không thể là cả cố định và ngẫu nhiên, vì cả hai sẽ không được xác định lẫn nhau. Bạn có thể có cả hệ số cố định và ngẫu nhiên cho một biến, nhưng đó là một câu hỏi khác nhau.
Macro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.