Làm thế nào để đối phó với sự quá mức trong hồi quy Poisson: khả năng gần đúng, GLM nhị thức âm tính, hoặc hiệu ứng ngẫu nhiên ở cấp độ chủ đề?

Tôi đã bắt gặp ba đề xuất để đối phó với sự quá mức trong biến phản hồi Poisson và mô hình bắt đầu hiệu ứng cố định tất cả:

Sử dụng mô hình gần đúng;
Sử dụng GLM nhị thức âm tính;
Sử dụng một mô hình hỗn hợp với hiệu ứng ngẫu nhiên ở cấp độ chủ đề.

Nhưng thực sự chọn cái nào, và tại sao? Có bất kỳ tiêu chí thực tế trong số này?

— Bryan
nguồn

Mô hình gần đúng coi tham số tỷ lệ / phân tán là tham số phiền toái và cung cấp SE cho các IRR được mở rộng bởi tính không đồng nhất đó trong khi IRR nhị thức âm phụ thuộc vào tham số tỷ lệ. Một mô hình hỗn hợp mô hình một hiệu ứng khác nhau: mức độ cá nhân hoặc hiệu ứng có điều kiện trong khi mô hình nhị thức và quasipoisson âm là mô hình cận biên. Vì vậy, họ không ước tính điều tương tự.

— AdamO

Được rồi, vậy thực sự chọn cái nào, và tiêu chí nào để đưa ra quyết định đó?

— Bryan

Tôi nghĩ bạn sẽ chọn Quasipoisson nếu (không phụ thuộc vào dữ liệu) mà bạn biết mô hình Poisson ước tính xu hướng bạn quan tâm, nhưng thiết kế hoặc phân tích dữ liệu không đáp ứng chính xác giả định phương sai. Bạn sẽ sử dụng mô hình nhị thức âm nếu bạn có lý do chính đáng để tin rằng mô hình xác suất thực tế là nhị thức âm, và bạn cần thực sự dự đoán độ không đồng nhất thay vì suy luận về xu hướng. Cuối cùng, bạn sử dụng một mô hình hỗn hợp nếu bạn muốn biết ảnh hưởng của việc tiếp xúc với một cá nhân hơn là trong dân số (tức là không bao giờ sử dụng với độc chất học).

— AdamO

Tôi không đồng ý với @AdamO wrt "mô hình hỗn hợp ... ảnh hưởng của việc tiếp xúc với ... cá nhân hơn là trong dân số" . Sự hiểu biết của tôi là các mô hình hỗn hợp định lượng các hiệu ứng cấp độ chủ đề, và sau đó tích hợp chúng ra. Về cơ bản, tài khoản này cho giả hành (nhiều biện pháp cho cùng một đối tượng) từ các ước tính tham số của bạn, tính lại các ước tính tham số không thiên vị cho dân số (không phải cá nhân). Tôi sử dụng các mô hình hỗn hợp mọi lúc vì lý do này ... vì vậy tôi hy vọng tôi không sai về điều này!

— RTbecard

Hồi quy Poisson chỉ là một GLM:

Mọi người thường nói về lý do tham số để áp dụng hồi quy Poisson. Trong thực tế, hồi quy Poisson chỉ là một GLM. Điều đó có nghĩa là hồi quy Poisson được chứng minh cho bất kỳ loại dữ liệu nào (đếm, xếp hạng, điểm thi, sự kiện nhị phân, v.v.) khi hai giả định được đáp ứng: 1) nhật ký của kết quả trung bình là sự kết hợp tuyến tính của các yếu tố dự đoán và 2) các sai của kết quả là tương đương với trung bình . Hai điều kiện này tương ứng được gọi là mô hình trung bình và mối quan hệ phương sai trung bình.

Giả định mô hình trung bình có thể được nới lỏng phần nào bằng cách sử dụng một bộ điều chỉnh phức tạp cho các yếu tố dự đoán. Điều này là tốt vì chức năng liên kết ảnh hưởng đến việc giải thích các tham số; sự tinh tế trong diễn giải tạo ra sự khác biệt giữa trả lời một câu hỏi khoa học và hoàn toàn lảng tránh người tiêu dùng trong phân tích thống kê của bạn. Trong một bài SE khác tôi thảo luận về tính hữu ích của các phép biến đổi log để giải thích.

Tuy nhiên, hóa ra giả định thứ hai (mối quan hệ trung bình - phương sai) có ý nghĩa mạnh mẽ đối với suy luận. Khi mối quan hệ trung bình-phương sai không đúng, ước tính tham số không bị sai lệch . Tuy nhiên, các lỗi tiêu chuẩn, khoảng tin cậy, giá trị p và dự đoán đều được tính toán sai. Điều đó có nghĩa là bạn không thể kiểm soát lỗi Loại I và bạn có thể có sức mạnh dưới mức tối ưu.

Điều gì xảy ra nếu phương sai trung bình có thể được nới lỏng để phương sai đơn giản tỷ lệ với giá trị trung bình? Hồi quy nhị thức âm và hồi quy Quasipoisson làm điều này.

Mô hình quasipoisson

Các mô hình quasipoisson không có khả năng dựa trên. Họ tối đa hóa một "khả năng gây nhiễu", đó là khả năng Poisson lên đến hằng số tỷ lệ. Hằng số tỷ lệ đó xảy ra là sự phân tán. Sự phân tán được coi là một mối phiền toáitham số. Mặc dù thói quen tối đa hóa đưa ra ước tính về tham số phiền toái, ước tính đó chỉ là một tạo tác của dữ liệu chứ không phải là bất kỳ giá trị nào khái quát cho dân số. Sự phân tán chỉ phục vụ để "thu nhỏ" hoặc "mở rộng" các SE của các tham số hồi quy tùy theo phương sai có nhỏ hơn hoặc lớn hơn giá trị trung bình hay không. Do sự phân tán được coi là một tham số phiền toái, các mô hình quasipoisson được hưởng một loạt các đặc tính mạnh: trên thực tế, dữ liệu có thể không đồng nhất (không đáp ứng giả định phương sai trung bình tỷ lệ) và thậm chí không thể hiện các nguồn phụ thuộc nhỏ, và mô hình trung bình không cần chính xác, nhưng 95% TCTD cho các tham số hồi quy là không chính xác.Nếu mục tiêu phân tích dữ liệu của bạn là đo lường mối liên quan giữa một tập hợp các tham số hồi quy và kết quả, thì các mô hình quasipoisson thường là hướng đi. Một hạn chế của các mô hình này là chúng không thể mang lại các khoảng dự đoán, phần dư Pearson không thể cho bạn biết nhiều về độ chính xác của mô hình trung bình và các tiêu chí thông tin như AIC hoặc BIC có thể so sánh hiệu quả các mô hình này với các loại mô hình khác.

Mô hình nhị thức âm

Rất hữu ích để hiểu hồi quy nhị thức âm là hồi quy Poisson 2 tham số. Mô hình trung bình giống như trong các mô hình Poisson và Quasipoisson trong đó nhật ký kết quả là sự kết hợp tuyến tính của các yếu tố dự đoán. Hơn nữa, tham số "scale" mô hình mối quan hệ phương sai trung bình trong đó phương sai chỉ tỷ lệ với giá trị trung bình như trước. Tuy nhiên, không giống như các mô hình quasipoisson, loại mô hình này là một quy trình dựa trên khả năng chính xác. Trong trường hợp này, sự phân tán là một tham số thực tế có mức độ phổ biến đối với dân số. Điều này giới thiệu một vài lợi thế so với quasipoisson nhưng, theo tôi, áp đặt nhiều giả định (không thể kiểm chứng). Không giống như các mô hình quasipoisson: dữ liệu phải độc lập, mô hình trung bình phải chính xác và tham số tỷ lệ phải là homoscedastic trên phạm vi của các giá trị được trang bị để có được suy luận chính xác. Tuy nhiên, những điều này có thể được đánh giá phần nào bằng cách kiểm tra các phần dư Pearson, và mô hình tạo ra các khoảng dự đoán và dự đoán khả thi, và có thể so sánh với các tiêu chí thông tin.

Các mô hình xác suất nhị thức âm tính phát sinh từ hỗn hợp Poisson-Gamma. Đó là, có một biến ngẫu nhiên Gamma dao động không xác định "ăn vào" tham số tỷ lệ Poisson. Do NB GLM phù hợp dựa trên khả năng, nên thường hữu ích khi nêu niềm tin trước về cơ chế tạo dữ liệu và kết nối chúng với cơ sở xác suất cho mô hình trong tay. Ví dụ, nếu tôi đang kiểm tra số lượng tay đua nghỉ hưu từ cuộc đua sức bền 24 giờ, tôi có thể xem xét rằng các điều kiện môi trường là tất cả các yếu tố gây căng thẳng mà tôi không đo lường được và do đó góp phần vào nguy cơ của DNF, như độ ẩm hoặc nhiệt độ lạnh ảnh hưởng đến lốp xe lực kéo và do đó nguy cơ của một spin-out và xác tàu.

Mô hình cho dữ liệu phụ thuộc: GLMM so với GEE

Các mô hình hỗn hợp tuyến tính tổng quát (GLMM) cho dữ liệu Poisson không so sánh với các phương pháp trên. GLMM trả lời một câu hỏi khác nhau và được sử dụng trong các cấu trúc dữ liệu khác nhau. Ở đây các nguồn phụ thuộc giữa các dữ liệu được đo lường rõ ràng. GLMM sử dụng các chặn ngẫu nhiên và độ dốc ngẫu nhiên để giải thích cho sự không đồng nhất ở cấp độ cá nhân. Điều này sửa đổi những gì chúng tôi ước tính. Các hiệu ứng ngẫu nhiên sửa đổi giá trị trung bình và phương sai được mô hình hóa thay vì chỉ phương sai như đã thảo luận ở trên.

Có hai cấp độ liên kết có thể được đo lường trong dữ liệu phụ thuộc: cấp độ dân số (cận biên) và cấp độ cá nhân (có điều kiện). GLMM tuyên bố để đo lường các hiệp hội cấp độ cá nhân (có điều kiện): nghĩa là, đưa ra toàn bộ máy chủ đóng góp cấp độ cá nhân cho kết quả, tác động tương đối của sự kết hợp các yếu tố dự đoán là gì. Ví dụ, các khóa học luyện thi có thể ít ảnh hưởng đến trẻ em học tại các trường mẫu mực, trong khi trẻ em nội thành có thể được hưởng lợi rất nhiều. Hiệu ứng cấp độ cá nhân sau đó cao hơn đáng kể trong trường hợp này vì trẻ em được ưu tiên quá xa so với đường cong về mặt phơi nhiễm tích cực.

Nếu chúng ta ngây thơ áp dụng các mô hình nhị phân quasipoisson hoặc âm tính cho dữ liệu phụ thuộc, các mô hình NB sẽ sai và các mô hình Quasipoisson sẽ không hiệu quả. Tuy nhiên, GEE mở rộng mô hình quasipoisson để mô hình hóa các cấu trúc phụ thuộc rõ ràng như GLMM, nhưng GEE đo lường xu hướng cận biên (mức dân số) và có được trọng số chính xác, sai số chuẩn và suy luận.

Ví dụ phân tích dữ liệu:

Bài đăng này đã quá dài :) Có một minh họa đẹp về hai mô hình đầu tiên trong hướng dẫn này , cùng với các tài liệu tham khảo để đọc nhiều hơn nếu bạn quan tâm. Dữ liệu trong câu hỏi liên quan đến thói quen làm tổ của cua móng ngựa: con cái ngồi trong tổ và con đực (vệ tinh) gắn vào mình. Các nhà điều tra muốn đo số lượng nam giới gắn bó với nữ như là một chức năng của các đặc điểm của phụ nữ. Tôi hy vọng tôi đã nhấn mạnh lý do tại sao các mô hình hỗn hợp là không thể so sánh được: nếu bạn có dữ liệu phụ thuộc, bạn phải sử dụng mô hình chính xác cho câu hỏi mà dữ liệu phụ thuộc đang cố gắng trả lời, GLM hoặc GEE.

Người giới thiệu:

[1] Agresti, Phân tích dữ liệu phân loại Phiên bản 2

[2] Diggle, Heagerty, Liang, Zeger, Phân tích dữ liệu theo chiều dọc lần 2.

— Adam
nguồn