So sánh một mô hình hỗn hợp (chủ đề là hiệu ứng ngẫu nhiên) với một mô hình tuyến tính đơn giản (chủ đề là hiệu ứng cố định)


10

Tôi đang hoàn thiện một số phân tích trên một tập hợp dữ liệu lớn. Tôi muốn lấy mô hình tuyến tính được sử dụng trong phần đầu tiên của công việc và điều chỉnh lại nó bằng mô hình hỗn hợp tuyến tính (LME). LME sẽ rất giống với ngoại lệ rằng một trong các biến được sử dụng trong mô hình sẽ được sử dụng như một hiệu ứng ngẫu nhiên. Dữ liệu này xuất phát từ nhiều quan sát (> 1000) trong một nhóm nhỏ các đối tượng (~ 10) và tôi biết rằng việc mô hình hóa hiệu ứng của chủ thể được thực hiện tốt hơn như một hiệu ứng ngẫu nhiên (đây là một biến mà tôi muốn thay đổi). Mã R sẽ trông như sau:

my_modelB <- lm(formula = A ~ B + C + D)    
lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML')

Tất cả mọi thứ chạy tốt và kết quả là rất giống nhau. Sẽ thật tuyệt nếu tôi có thể sử dụng một cái gì đó như RLRsim hoặc AIC / BIC để so sánh hai mô hình này và quyết định cái nào là phù hợp nhất. Các đồng nghiệp của tôi không muốn báo cáo LME vì không có cách nào dễ dàng tiếp cận để chọn "tốt hơn", mặc dù tôi nghĩ LME là mô hình phù hợp hơn. Bất kỳ đề xuất?

Câu trả lời:


6

A ~ B + CDH0:σ2=0χ2χ2

library(lme4)
my_modelB <- lm(formula = A ~ B + C)
lme_model <- lmer(y ~ B + C + (1|D), data=my_data, REML=F)
lrt.observed <- as.numeric(2*(logLik(lme_model) - logLik(my_modelB)))
nsim <- 999
lrt.sim <- numeric(nsim)
for (i in 1:nsim) {
    y <- unlist(simulate(mymodlB))
    nullmod <- lm(y ~ B + C)
    altmod <- lmer(y ~ B + C + (1|D), data=my_data, REML=F)
    lrt.sim[i] <- as.numeric(2*(logLik(altmod) - logLik(nullmod)))
}
mean(lrt.sim > lrt.observed) #pvalue

Tỷ lệ các LRT khởi động cực đoan hơn mà LRT quan sát được là giá trị p.


Cảm ơn bạn đã hoàn thành câu trả lời của tôi. Ngoài ra, đôi khi người ta sử dụng hỗn hợp chi bình phương thay vì phân phối chi bình phương cho thống kê kiểm tra.
ocram

@ocram +1 cho nhận xét của bạn về việc quyết định xem biến biến là ngẫu nhiên hay cố định tách biệt với phân tích. @MudPhud Nếu PI của bạn không hiểu vấn đề và nhấn mạnh vào giá trị p, thì có thể chỉ cho anh ta thấy kết quả của thử nghiệm về hiệu ứng ngẫu nhiên (mà bạn sẽ bao gồm trong phần viết ra).
khóa

Cảm ơn mã. Khi tôi chạy nó, kết quả là không có LRT nào được khởi động lớn hơn mức quan sát được, vì vậy điều này có nghĩa là tôi có thể dính vào lm mà không cần các hiệu ứng ngẫu nhiên hoặc thậm chí là biến ban đầu được ném vào.
MudPhud 17/03/2016

@MudPhud: Bạn có nhận được lỗi nào không? Hãy thử gõ lrt.simđể đảm bảo rằng chúng không phải là tất cả số không, trong trường hợp đó, thủ phạm rất có thể là bạn không lme4cài đặt gói .
khóa

Chúng không phải là 0, chỉ rất nhỏ (~ 1e-6) so với quan sát (63,95).
MudPhud 17/03/2016

2

0H0:variance=0H1:variance>0...

BIÊN TẬP

Để tránh nhầm lẫn: Thử nghiệm được đề cập ở trên đôi khi được sử dụng để quyết định xem hiệu ứng ngẫu nhiên có đáng kể hay không ... nhưng không quyết định có nên chuyển đổi thành hiệu ứng cố định hay không.


Câu hỏi là: có thử nghiệm để quyết định xem biến nên được mô hình hóa thành hiệu ứng hỗn hợp hay hiệu ứng ngẫu nhiên? Nếu không, bạn có thể thực hiện bài kiểm tra mà bạn đã mô tả và sau đó kiểm tra bằng một khoảng cách chi bình phương (tôi không chắc bài kiểm tra phù hợp sẽ là gì).
MudPhud 17/03/2016

2
@MudPhud: Mô hình hóa một biến là một hiệu ứng cố định hoặc ngẫu nhiên nên thực sự được quyết định trước khi phân tích, khi nghiên cứu được lên kế hoạch. Cụ thể, nó phụ thuộc vào phạm vi kết luận của bạn. Hiệu ứng ngẫu nhiên cho phép khái quát hơn. Nó cũng có thể tránh một số khó khăn kỹ thuật. Ví dụ, tiệm cận có thể bị hỏng khi số lượng tham số tăng lên, vì đó là trường hợp khi một biến phân loại có nhiều cấp được coi là một biến cố định.
ocram 17/03/2016

Tôi đồng ý, nhưng khi tôi cố gắng giải thích điều này với PI của mình, anh ta chỉ quay lại và yêu cầu một giá trị p nào đó. Tôi muốn đưa phân tích này vào một bản thảo, nhưng anh ấy sẽ không đưa nó vào nếu không có sự biện minh cụ thể hơn.
MudPhud 17/03/2016

1
@MudPhud: Theo hiểu biết tốt nhất của tôi, không có giá trị p cho quyết định như vậy. Nếu các trung tâm quan tâm về ảnh hưởng của các mức cụ thể được chọn thì nó nên được coi là cố định. Nếu các mức yếu tố khả dụng được xem là một mẫu ngẫu nhiên từ một dân số lớn hơn và những suy luận được mong muốn cho dân số lớn hơn, thì hiệu ứng sẽ là ngẫu nhiên.
ocram
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.