Tại sao bạn dự đoán từ một mô hình hiệu ứng hỗn hợp mà không bao gồm các hiệu ứng ngẫu nhiên cho dự đoán?


10

Đây là nhiều hơn một câu hỏi về khái niệm, nhưng khi tôi sử dụng, Rtôi sẽ đề cập đến các gói trong R. Nếu mục đích là để phù hợp với một mô hình tuyến tính cho mục đích dự đoán, và sau đó đưa ra dự đoán trong đó các hiệu ứng ngẫu nhiên có thể không có, thì có lợi ích gì khi sử dụng mô hình hiệu ứng hỗn hợp, hoặc nên sử dụng mô hình hiệu ứng cố định?

Ví dụ: nếu tôi có dữ liệu về cân nặng so với chiều cao với một số thông tin khác và xây dựng mô hình sau bằng cách sử dụng lme4, trong đó chủ đề là một yếu tố có cấp độ ( ):n = n o . s a m p l e snn=no.samples

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

Sau đó, tôi muốn có thể dự đoán cân nặng từ mô hình bằng cách sử dụng dữ liệu chiều cao và tuổi mới. Rõ ràng phương sai theo chủ đề trong dữ liệu gốc được ghi lại trong mô hình, nhưng liệu có thể sử dụng thông tin này trong dự đoán không? Giả sử tôi có một số dữ liệu về chiều cao và tuổi mới và muốn dự đoán cân nặng, tôi có thể làm như sau:

predict(mod1,newdata=newdf) # newdf columns for height, age, subject

Điều này sẽ sử dụng predict.merModvà tôi có thể bao gồm một cột cho các đối tượng (mới) trong newdfhoặc đặt re.form =~0. Trong trường hợp đầu tiên, không rõ mô hình làm gì với các yếu tố chủ thể 'mới' và trong trường hợp thứ hai, liệu phương sai theo chủ đề được ghi lại trong mô hình có bị bỏ qua (tính trung bình) cho dự đoán không?

Trong cả hai trường hợp, dường như với tôi rằng một mô hình tuyến tính hiệu ứng cố định có thể phù hợp hơn. Thật vậy, nếu sự hiểu biết của tôi là chính xác, thì một mô hình hiệu ứng cố định sẽ dự đoán các giá trị giống như mô hình hỗn hợp, nếu hiệu ứng ngẫu nhiên không được sử dụng trong dự đoán. Đây có nên là trường hợp? Trong Rđó thì không, ví dụ:

mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)

predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject

mang lại kết quả khác nhau để:

mod2 <- lm(weight ~ height + age, data=df)

predict(mod2,newdata=newdf) # newdf columns for height, age



1
Nó có thể là năm muốn dự đoán cho một nhóm mới không được bao gồm trong ước tính
kjetil b halvorsen

Có, nhưng trong trường hợp đó tại sao phải bận tâm với một mô hình hiệu ứng hỗn hợp? Điều gì mang lại cho bạn rằng một mô hình hiệu ứng cố định không, nếu bạn bỏ qua các hiệu ứng ngẫu nhiên trong dự đoán?
Tribalsoul

1
Chà, nó có thể cung cấp cho những người ước tính tốt hơn, bởi vì bạn có một mô hình cấu trúc lỗi tốt hơn (chính xác hơn)
kjetil b halvorsen

Câu trả lời:


5

Thí nghiệm đơn giản: Bạn đã đo được cân nặng và chiều cao của 5 trẻ sau khi sinh. Và bạn đã đo nó từ cùng một em bé sau hai năm. Trong khi đó, bạn đo cân nặng và chiều cao của con gái bé hầu như mỗi tuần, kết quả là 100 cặp giá trị cho bé. Nếu bạn sử dụng mô hình hiệu ứng hỗn hợp, không có vấn đề gì. Nếu bạn sử dụng một mô hình hiệu ứng cố định, bạn đặt trọng lượng quá mức lên các phép đo từ con gái của bạn, đến một điểm mà bạn sẽ có được mô hình phù hợp gần như tương tự nếu bạn chỉ sử dụng dữ liệu từ cô ấy. Vì vậy, nó không chỉ quan trọng đối với việc suy luận mô hình các biện pháp lặp lại hoặc các cấu trúc không chắc chắn một cách chính xác, mà còn cho dự đoán. Nói chung, bạn không nhận được các dự đoán tương tự từ mô hình hiệu ứng hỗn hợp và từ mô hình hiệu ứng cố định (với các giả định bị vi phạm).

và tôi có thể bao gồm một cột cho các chủ đề (mới) trong newdf

Bạn không thể dự đoán cho các đối tượng không phải là một phần của dữ liệu gốc (đào tạo). Lại một thí nghiệm tư duy: chủ đề mới bị béo phì. Làm thế nào mô hình có thể biết rằng nó nằm ở đầu trên của phân phối hiệu ứng ngẫu nhiên?

phương sai theo chủ đề được ghi lại trong mô hình sẽ bị bỏ qua (tính trung bình trên) cho dự đoán

Nếu tôi hiểu bạn chính xác thì có. Mô hình cung cấp cho bạn ước tính giá trị dự kiến ​​cho dân số (lưu ý rằng ước tính này vẫn có điều kiện đối với các đối tượng ban đầu).


1
Cảm ơn bạn đã giải thích rõ ràng và ví dụ, tất cả điều này có ý nghĩa. Tuy nhiên, nơi bạn nêu You can't predict for subjects which were not part of the original (training) data; không thiết lập re.form=~0và dự đoán từ giá trị dự kiến ​​dân số cho phép tôi làm điều đó? Cấp, mô hình không sử dụng bất kỳ thông tin cụ thể theo chủ đề nào trong dự đoán, nhưng có công bằng không khi nói rằng ước tính từ mô hình hiệu ứng hỗn hợp vẫn sẽ chính xác hơn so với mô hình hiệu ứng cố định tương đương trong đó biến thể cụ thể của đối tượng là mặc kệ?
Tribalsoul

1
Mô hình cố định không được áp dụng do các giả định của nó bị vi phạm. Bạn phải sử dụng một mô hình bao gồm một cấu trúc phụ thuộc. re.form=~0cung cấp cho bạn dự đoán cấp độ dân số, đó là điều tốt nhất bạn có thể làm cho các đối tượng mới.
Roland

Tôi có cùng một câu hỏi khi sử dụng glmmLasso gói trong R. Tác giả của gói, Andreas Groll, cho biết quy trình glmmLasso chỉ sử dụng các hiệu ứng cố định để đưa ra dự đoán cho các đối tượng mới và các hiệu ứng ngẫu nhiên + cố định cho các đối tượng hiện có trong khoảng thời gian tiếp theo.
RobertF
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.