Sự thay thế quá mức và mô hình hóa trong các mô hình hiệu ứng ngẫu nhiên Poisson với độ lệch

Tôi đã gặp một số câu hỏi thực tế khi mô hình hóa dữ liệu đếm từ nghiên cứu thử nghiệm bằng cách sử dụng thử nghiệm bên trong chủ đề. Tôi mô tả ngắn gọn về thí nghiệm, dữ liệu và những gì tôi đã làm cho đến nay, tiếp theo là các câu hỏi của tôi.

Bốn bộ phim khác nhau đã được trình chiếu cho một mẫu người trả lời theo trình tự. Sau mỗi bộ phim, một cuộc phỏng vấn được thực hiện trong đó chúng tôi đã đếm số lần xuất hiện của một số tuyên bố nhất định được quan tâm cho RQ (biến đếm dự đoán). Chúng tôi cũng ghi lại số lần xuất hiện tối đa có thể xảy ra (đơn vị mã hóa; biến bù). Ngoài ra, một số tính năng của các bộ phim được đo lường trên quy mô liên tục, trong đó đối với chúng tôi có một giả thuyết nguyên nhân về hiệu ứng của tính năng phim đối với số lượng báo cáo trong khi các yếu tố khác là kiểm soát (dự đoán).

Chiến lược mô hình được áp dụng cho đến nay là như sau:

Ước tính một mô hình Poisson hiệu ứng ngẫu nhiên, trong đó biến nhân quả được sử dụng làm hiệp phương sai và các biến khác làm biến số điều khiển. Mô hình này có độ lệch bằng 'log (đơn vị)' (đơn vị mã hóa). Hiệu ứng ngẫu nhiên được thực hiện trên các đối tượng (số lượng phim cụ thể được lồng trong các đối tượng). Chúng tôi tìm thấy giả thuyết nguyên nhân được xác nhận (sig. Hệ số của biến nhân quả). Trong ước tính, chúng tôi đã sử dụng gói lme4 trong R, đặc biệt là hàm glmer.

Bây giờ tôi có những câu hỏi sau đây. Một vấn đề phổ biến trong hồi quy Poisson là quá mức. Tôi biết rằng điều này có thể được kiểm tra bằng cách sử dụng hồi quy nhị thức âm và đánh giá xem tham số phân tán của nó có cải thiện mô hình phù hợp với mô hình Poisson đơn giản hay không. Tuy nhiên, tôi không biết làm thế nào trong bối cảnh hiệu ứng ngẫu nhiên.

Làm thế nào tôi nên kiểm tra sự quá mức trong tình huống của tôi? Tôi đã thử nghiệm quá mức trong một hồi quy nhị thức Poisson / âm đơn giản (không có hiệu ứng ngẫu nhiên) mà tôi biết làm thế nào để phù hợp. Các thử nghiệm cho thấy sự hiện diện của quá mức. Tuy nhiên vì các mô hình này không tính đến việc phân cụm nên tôi cho rằng thử nghiệm này không chính xác. Ngoài ra tôi không chắc chắn về vai trò của phần bù cho các bài kiểm tra quá mức.
Có một cái gì đó giống như một mô hình hồi quy hiệu ứng ngẫu nhiên nhị thức âm và làm thế nào tôi nên phù hợp với nó trong R?
Bạn có đề xuất cho các mô hình thay thế mà tôi nên thử trên dữ liệu, nghĩa là lấy cấu trúc đo lặp lại, đếm biến và phơi sáng (đơn vị mã hóa) không?

— cà chua
nguồn

để bắt đầu, hãy xem phần "quá mức" trong glmm.wikidot.com/faq

— Ben Bolker

Cảm ơn, rất hữu ích! Có lẽ ai đó muốn biên dịch một câu trả lời từ thông tin này và thông tin khác.

— tomka

$[0,\infty)$ , có thể phù hợp hơn vì nó có hình dạng dễ thay đổi hơn. Tuy nhiên, đó chỉ là dự đoán và trong thực tế, tôi sẽ tìm kiếm câu trả lời cho câu hỏi chung chung hơn bằng cách sử dụng vũ lực ...

Thay vì kiểm tra sự quá mức , không đảm bảo dẫn đến một câu trả lời hữu ích, và mặc dù người ta có thể kiểm tra các chỉ số phân tán để định lượng phân tán, tôi sẽ khuyên bạn nên tìm kiếm phân phối tốt nhất bằng cách sử dụng tùy chọn phân phối rời rạc chương trình, ví dụ, thói quen FindDistribution của Mathicala . Loại tìm kiếm này thực hiện một công việc khá toàn diện để đoán xem (các) phân phối đã biết nào hoạt động tốt nhất không chỉ để giảm thiểu tình trạng quá mức, mà còn mô hình hóa một cách hữu ích hơn nhiều đặc điểm dữ liệu khác, ví dụ, mức độ phù hợp khi đo được hàng tá những cách khác.

Để tiếp tục kiểm tra các bản phân phối ứng viên của mình, tôi sẽ đăng bài kiểm tra phần dư để kiểm tra tính đồng nhất và / hoặc loại phân phối, đồng thời xem xét liệu các bản phân phối ứng viên có thể được đối chiếu tương ứng với giải thích vật lý của dữ liệu hay không. Sự nguy hiểm của thủ tục này là xác định một phân phối không phù hợp với mô hình tốt nhất của một tập dữ liệu mở rộng. Nguy hiểm của việc không làm một thủ tục hậu hoc là để một tiên nghiệm chỉ định một phân phối được lựa chọn tùy ý mà không có kiểm tra thích hợp (rác trong thùng rác). Tính ưu việt của bài hocCách tiếp cận là nó hạn chế các lỗi của sự phù hợp, và đó cũng là điểm yếu của nó, nghĩa là, nó có thể nhấn mạnh các lỗi mô hình hóa thông qua cơ hội thuần túy khi nhiều nỗ lực phân phối được thử. Đó là lý do để kiểm tra dư và xem xét thể chất. Từ trên xuống hoặc một cách tiên nghiệmcách tiếp cận cung cấp không có bài kiểm tra hoc như vậy về tính hợp lý. Đó là, phương pháp duy nhất để so sánh tính vật lý của mô hình hóa với các phân phối khác nhau, là đăng bài so sánh chúng. Do đó phát sinh bản chất của lý thuyết vật lý, chúng tôi kiểm tra một lời giải thích giả thuyết về dữ liệu với nhiều thí nghiệm trước khi chúng tôi chấp nhận chúng như những giải thích thay thế mệt mỏi.

— Carl
nguồn