Đây là nhiều hơn một câu hỏi về khái niệm, nhưng khi tôi sử dụng, R
tôi sẽ đề cập đến các gói trong R
. Nếu mục đích là để phù hợp với một mô hình tuyến tính cho mục đích dự đoán, và sau đó đưa ra dự đoán trong đó các hiệu ứng ngẫu nhiên có thể không có, thì có lợi ích gì khi sử dụng mô hình hiệu ứng hỗn hợp, hoặc nên sử dụng mô hình hiệu ứng cố định?
Ví dụ: nếu tôi có dữ liệu về cân nặng so với chiều cao với một số thông tin khác và xây dựng mô hình sau bằng cách sử dụng lme4
, trong đó chủ đề là một yếu tố có cấp độ ( ):n = n o . s a m p l e s
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
Sau đó, tôi muốn có thể dự đoán cân nặng từ mô hình bằng cách sử dụng dữ liệu chiều cao và tuổi mới. Rõ ràng phương sai theo chủ đề trong dữ liệu gốc được ghi lại trong mô hình, nhưng liệu có thể sử dụng thông tin này trong dự đoán không? Giả sử tôi có một số dữ liệu về chiều cao và tuổi mới và muốn dự đoán cân nặng, tôi có thể làm như sau:
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
Điều này sẽ sử dụng predict.merMod
và tôi có thể bao gồm một cột cho các đối tượng (mới) trong newdf
hoặc đặt re.form =~0
. Trong trường hợp đầu tiên, không rõ mô hình làm gì với các yếu tố chủ thể 'mới' và trong trường hợp thứ hai, liệu phương sai theo chủ đề được ghi lại trong mô hình có bị bỏ qua (tính trung bình) cho dự đoán không?
Trong cả hai trường hợp, dường như với tôi rằng một mô hình tuyến tính hiệu ứng cố định có thể phù hợp hơn. Thật vậy, nếu sự hiểu biết của tôi là chính xác, thì một mô hình hiệu ứng cố định sẽ dự đoán các giá trị giống như mô hình hỗn hợp, nếu hiệu ứng ngẫu nhiên không được sử dụng trong dự đoán. Đây có nên là trường hợp? Trong R
đó thì không, ví dụ:
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
mang lại kết quả khác nhau để:
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age