Là mô hình hỗn hợp hữu ích như mô hình dự đoán?


24

Tôi hơi bối rối về lợi thế của các mô hình hỗn hợp liên quan đến mô hình dự đoán. Do các mô hình dự đoán thường có nghĩa là dự đoán các giá trị của các quan sát chưa biết trước đó nên đối với tôi, cách duy nhất mà một mô hình hỗn hợp có thể hữu ích là thông qua khả năng cung cấp các dự đoán cấp độ dân số (không có thêm bất kỳ hiệu ứng ngẫu nhiên nào). Tuy nhiên, vấn đề là cho đến nay theo kinh nghiệm của tôi, các dự đoán cấp dân số dựa trên các mô hình hỗn hợp kém hơn đáng kể so với các dự đoán dựa trên các mô hình hồi quy tiêu chuẩn chỉ có hiệu ứng cố định.

Vì vậy, điểm của các mô hình hỗn hợp liên quan đến các vấn đề dự đoán là gì?

CHỈNH SỬA. Vấn đề là như sau: Tôi đã trang bị một mô hình hỗn hợp (có cả hiệu ứng cố định và ngẫu nhiên) và mô hình tuyến tính tiêu chuẩn chỉ có hiệu ứng cố định. Khi tôi xác thực chéo, tôi nhận được một hệ thống phân cấp chính xác dự đoán sau: 1) các mô hình hỗn hợp khi dự đoán sử dụng các hiệu ứng cố định và ngẫu nhiên (nhưng tất nhiên công việc này chỉ dành cho các quan sát với các mức hiệu ứng ngẫu nhiên đã biết, vì vậy phương pháp dự đoán này dường như không phù hợp với các ứng dụng dự đoán thực tế!); 2) mô hình tuyến tính tiêu chuẩn; 3) mô hình hỗn hợp khi sử dụng dự đoán cấp độ dân số (vì vậy với các hiệu ứng ngẫu nhiên được đưa ra). Do đó, sự khác biệt duy nhất giữa mô hình tuyến tính tiêu chuẩn và mô hình hỗn hợp có giá trị hệ số hơi khác nhau do các phương pháp ước lượng khác nhau (nghĩa là có cùng hiệu ứng / yếu tố dự đoán trong cả hai mô hình, nhưng chúng có hệ số liên quan khác nhau).

Vì vậy, sự nhầm lẫn của tôi đặt ra một câu hỏi, tại sao tôi lại sử dụng mô hình hỗn hợp làm mô hình dự đoán, vì sử dụng mô hình hỗn hợp để tạo dự đoán cấp độ dân số dường như là một chiến lược kém hơn so với mô hình tuyến tính tiêu chuẩn.


Làm thế nào bạn đang làm dự đoán của bạn? Bạn không sử dụng các hiệu ứng ngẫu nhiên hay bạn đang sửa các hiệu ứng ngẫu nhiên của mình theo cách của họ? (Tức là bạn đang ném ra các hiệu ứng ngẫu nhiên tại thời điểm dự đoán?)
Wayne

Theo như tôi hiểu chính xác các hiệu ứng ngẫu nhiên, việc sửa các hiệu ứng ngẫu nhiên theo phương tiện của chúng cũng giống như loại bỏ chúng, vì các hiệu ứng ngẫu nhiên (ít nhất là trong tham số tôi sử dụng) được tạo ra từ các phân phối bình thường của phương tiện 0 và sai lệch phương sai. Nhưng dù sao, vì tôi không biết các giá trị của các biến hiệu ứng ngẫu nhiên cho các quan sát mới nên tất nhiên tôi không sử dụng các hiệu ứng ngẫu nhiên tại thời điểm dự đoán, chỉ có các hiệu ứng cố định.
sztal

1
Bạn có thể muốn xem xét thông qua bài báo này, "Trên Hiệu quả của hỗn hợp mô hình dựa Logistic Regression Classifiers cho Longitudinal dữ liệu", search.proquest.com/openview/3578d64c85f3c1c52414924d044bca2c/...
Jon

1
sztal: tất nhiên là bạn đúng Tôi đã cố gắng trả lời nhanh chóng và nói điều gì đó không có ý nghĩa. Tôi đã tìm thấy bài báo ( gllamm.org/JRSSApredict_09.pdf ) đề cập đến dự đoán trong Phần 7. Tôi phải nói rằng tôi không thể tóm tắt nó xuống một nhận xét, điều đó cho thấy tôi không thực sự hiểu nó.
Wayne

Một câu hỏi cuối cùng: khi bạn so sánh hiệu ứng cố định chỉ với hiệu ứng hỗn hợp, bạn có đang sử dụng cùng một hiệu ứng cố định trong mỗi hiệu ứng không, chỉ với việc thêm một cái gì đó giống như đánh chặn ở cấp độ cá nhân? Cảm giác như trong tình huống này, bạn sẽ có những hiệu ứng rất giống nhau, ngoại trừ với ý tưởng tốt hơn về khoảng dự đoán thực sự của bạn.
Wayne

Câu trả lời:


17

Nó phụ thuộc vào bản chất của dữ liệu, nhưng nói chung tôi sẽ mong đợi mô hình hỗn hợp sẽ tốt hơn các mô hình chỉ có hiệu ứng cố định.

Hãy lấy một ví dụ: mô hình hóa mối quan hệ giữa ánh nắng mặt trời và chiều cao của thân cây lúa mì. Chúng tôi có một số phép đo thân cây riêng lẻ, nhưng nhiều thân cây được đo tại cùng một vị trí (tương tự trong đất, nước và những thứ khác có thể ảnh hưởng đến chiều cao). Dưới đây là một số mô hình có thể:

1) chiều cao ~ ánh nắng mặt trời

2) chiều cao ~ ánh nắng mặt trời + trang web

3) chiều cao ~ ánh nắng mặt trời + (1 | trang web)

Chúng tôi muốn sử dụng các mô hình này để dự đoán chiều cao của thân cây lúa mì mới với một số ước tính về ánh nắng mặt trời mà chúng sẽ trải qua. Tôi sẽ bỏ qua hình phạt tham số mà bạn sẽ trả cho việc có nhiều trang web trong một mô hình chỉ có hiệu ứng cố định và chỉ xem xét khả năng dự đoán tương đối của các mô hình.

Câu hỏi phù hợp nhất ở đây là liệu những điểm dữ liệu mới mà bạn đang cố gắng dự đoán là từ một trong những trang web bạn đã đo; bạn nói điều này rất hiếm trong thế giới thực, nhưng nó đã xảy ra.

A) Dữ liệu mới từ một trang web bạn đã đo

Nếu vậy, mô hình # 2 và # 3 sẽ vượt trội hơn # 1. Cả hai đều sử dụng nhiều thông tin liên quan hơn (có nghĩa là hiệu ứng trang web) để đưa ra dự đoán.

B) Dữ liệu mới từ một trang web không được đo lường

Tôi vẫn mong đợi mô hình # 3 vượt trội hơn # 1 và # 2, vì những lý do sau.

(i) Mô hình # 3 so với # 1:

Mô hình # 1 sẽ đưa ra các ước tính sai lệch có lợi cho các trang web đại diện. Nếu bạn có số điểm tương tự từ mỗi trang web và một mẫu trang web đại diện hợp lý, bạn sẽ nhận được kết quả tương tự từ cả hai.

(ii) Mô hình # 3 so với # 2:

Tại sao mô hình số 3 sẽ tốt hơn mô hình số 2 trong trường hợp này? Bởi vì các hiệu ứng ngẫu nhiên tận dụng sự co ngót - các hiệu ứng trang web sẽ bị "thu nhỏ" về không. Nói cách khác, bạn sẽ có xu hướng tìm thấy các giá trị cực ít cho các hiệu ứng trang web khi nó được chỉ định là hiệu ứng ngẫu nhiên so với khi nó được chỉ định là hiệu ứng cố định. Điều này rất hữu ích và cải thiện khả năng dự đoán của bạn khi dân số có nghĩa là có thể được coi là hợp lý khi được rút ra từ một phân phối bình thường (xem Nghịch lý của Stein trong Thống kê ). Nếu dân số có nghĩa là không được mong đợi tuân theo phân phối bình thường, đây có thể là một vấn đề, nhưng đó thường là một giả định rất hợp lý và phương pháp này rất mạnh đối với những sai lệch nhỏ.

[Lưu ý bên: theo mặc định, khi phù hợp với mô hình số 2, hầu hết các phần mềm sẽ sử dụng một trong các trang web làm hệ số tham chiếu và ước tính cho các trang web khác biểu thị độ lệch của chúng so với tham chiếu. Vì vậy, nó có thể xuất hiện như thể không có cách nào để tính toán 'hiệu ứng dân số' tổng thể. Nhưng bạn có thể tính toán điều này bằng cách tính trung bình trên các dự đoán cho tất cả các trang web riêng lẻ hoặc đơn giản hơn bằng cách thay đổi mã hóa của mô hình để các hệ số được tính cho mọi trang web.]


Cảm ơn câu trả lời. Tôi khá bị thuyết phục. Thật không may, bây giờ tôi không nhớ trường hợp chính xác đã thúc đẩy câu hỏi của tôi, nhưng tôi nghĩ rằng hiệu suất kém của một mô hình hỗn hợp trong trường hợp của tôi có thể là do sự phân phối khá bất thường của các yếu tố dự đoán mà tôi đã sử dụng trong mô hình. Tôi sẽ sớm chấp nhận câu trả lời, nhưng vì câu hỏi đã thu hút một chút sự chú ý, tôi sẽ đưa ra một vài ngày nữa để ai đó có thể đưa ra một lời giải thích nghiêm ngặt hơn (có thể với một số ví dụ).
sztal

1
Vâng đặt. Cần lưu ý rằng việc dự đoán theo cách bá đạo các hiệu ứng cụ thể theo trang web sẽ tạo ra các hiệu ứng ngẫu nhiên, để dự đoán bất kỳ độ chặn ngẫu nhiên hoặc độ dốc ngẫu nhiên nào được ước tính theo mô hình sẽ tương đương với việc chỉ có một loạt các hiệu ứng cố định riêng biệt và cấp độ trang web cụ thể trong mô hình.
AdamO

8

Theo dõi phản ứng tuyệt vời của mkt: Từ kinh nghiệm cá nhân của tôi, phát triển các mô hình dự đoán trong lĩnh vực bảo hiểm y tế, kết hợp các hiệu ứng ngẫu nhiên vào các mô hình dự đoán (bao gồm các mô hình học máy) có một số lợi thế.

Tôi thường được yêu cầu xây dựng các mô hình dự đoán kết quả khiếu nại trong tương lai (ví dụ: chi phí y tế trong tương lai, thời gian lưu trú, v.v.) dựa trên dữ liệu khiếu nại lịch sử của một cá nhân. Thường xuyên có nhiều yêu cầu cho mỗi cá nhân với kết quả tương quan. Bỏ qua thực tế là nhiều tuyên bố được chia sẻ bởi cùng một bệnh nhân sẽ đưa ra thông tin có giá trị trong một mô hình dự đoán.

Một giải pháp sẽ là tạo các biến chỉ báo hiệu ứng cố định cho từng thành viên trong tập dữ liệu và sử dụng hồi quy bị phạt để thu nhỏ từng hiệu ứng cố định ở cấp thành viên. Tuy nhiên, nếu có hàng ngàn hoặc hàng triệu thành viên trong dữ liệu của bạn, một giải pháp hiệu quả hơn từ cả hai quan điểm tính toán và dự đoán có thể là biểu thị các hiệu ứng cố định nhiều cấp thành viên như một thuật ngữ hiệu ứng ngẫu nhiên duy nhất với phân phối bình thường.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.