Làm thế nào để phân phối Poisson hoạt động khi mô hình hóa dữ liệu liên tục và nó dẫn đến mất thông tin?

20

Một đồng nghiệp đang phân tích một số dữ liệu sinh học cho luận án của cô với một số Heteroscedasticity khó chịu (hình dưới). Cô ấy đang phân tích nó với một mô hình hỗn hợp nhưng vẫn gặp rắc rối với phần dư.

Chuyển đổi log các biến trả lời sẽ dọn sạch mọi thứ và dựa trên phản hồi cho câu hỏi này đây có vẻ là một cách tiếp cận phù hợp. Tuy nhiên, ban đầu, chúng tôi đã nghĩ rằng có vấn đề trong việc sử dụng các biến được chuyển đổi với các mô hình hỗn hợp. Hóa ra là chúng tôi đã giải thích sai một tuyên bố trong Littell & Milliken (2006) cho các mô hình hỗn hợp đã chỉ ra lý do tại sao không phù hợp để chuyển đổi dữ liệu đếm và sau đó phân tích nó bằng mô hình hỗn hợp tuyến tính bình thường (trích dẫn đầy đủ bên dưới) .

Một cách tiếp cận cũng cải thiện phần dư là sử dụng mô hình tuyến tính tổng quát với phân phối Poisson. Tôi đã đọc rằng phân phối Poisson có thể được sử dụng để mô hình hóa dữ liệu liên tục (ví dụ như được thảo luận trong bài đăng này ) và các gói thống kê cho phép điều đó, nhưng tôi không hiểu điều gì sẽ xảy ra khi mô hình phù hợp.

Với mục đích hiểu cách thực hiện các phép tính cơ bản, các câu hỏi của tôi là: Khi bạn khớp phân phối Poisson với dữ liệu liên tục, 1) dữ liệu có được làm tròn đến số nguyên 2 gần nhất không ) dẫn đến việc mất thông tin và 3) Khi nào, nếu có, có thích hợp sử dụng mô hình Poisson cho dữ liệu liên tục không?

Littel & Milliken 2006, pg 529 "chuyển đổi dữ liệu [đếm] có thể phản tác dụng. Ví dụ, một phép biến đổi có thể làm sai lệch sự phân phối các hiệu ứng mô hình ngẫu nhiên hoặc độ tuyến tính của mô hình. Quan trọng hơn, việc chuyển đổi dữ liệu vẫn để ngỏ khả năng Do đó, số lượng dự đoán tiêu cực. Do đó, suy luận từ một mô hình hỗn hợp sử dụng dữ liệu biến đổi là rất đáng ngờ. "

nhập mô tả hình ảnh ở đây

mixed-model poisson-distribution biostatistics

— N Brouwer
nguồn

1

Giống như @Tomas Tôi biết không có lý do gì bạn không nên chuyển đổi các biến trước một mô hình hỗn hợp và tôi đã đọc khá nhiều về chủ đề này. Tôi đã có cuốn sách Ramon và Littel .... bạn đang tham khảo trang nào?

— Peter Flom - Tái lập Monica

Hóa ra chúng tôi đã diễn giải sai một tuyên bố trên trang 529.

— N Brouwer

21

Tôi đã ước tính kết quả dương tính liên tục Hồi quy Poisson với công cụ ước lượng tuyến tính Huber / White / Sandwich khá thường xuyên. Tuy nhiên, đó không phải là lý do đặc biệt tốt để làm bất cứ điều gì, vì vậy đây là một số tài liệu tham khảo thực tế.

$y$

Ngoài ra còn có một số bằng chứng mô phỏng đáng khích lệ từ Santos Silva và Tenreyro (2006), trong đó Poisson xuất hiện trong chương trình hay nhất. Nó cũng làm tốt trong một mô phỏng với rất nhiều số không trong kết quả . Bạn cũng có thể dễ dàng thực hiện mô phỏng của riêng mình để thuyết phục bản thân rằng điều này hoạt động trong trường hợp bông tuyết của bạn.

Cuối cùng, bạn cũng có thể sử dụng GLM với chức năng liên kết nhật ký và họ Poisson. Điều này mang lại kết quả giống hệt nhau và làm dịu các phản ứng giật đầu gối chỉ có dữ liệu.

Tài liệu tham khảo không có liên kết bị cấm:

Gourieroux, C., A. Monfort và A. Trognon (1984). “Phương pháp Khả năng Pseudo tối đa: Ứng dụng để Poisson Models,” Econometrica , 52 tuổi, 701-720.

— Dimitriy V. Masterov
nguồn

2

Xem thêm mục blog tuyệt vời này trên blog Stata được viết bởi Bill Gould - blog.stata.com/2011/08/22/ mẹo

— boscovich

y

$y$

Có một bài viết liên quan trên blog Stata cung cấp thêm bằng chứng mô phỏng .

— Dimitriy V. Masterov

6

Phân phối Poisson chỉ dành cho dữ liệu đếm, cố gắng cung cấp dữ liệu liên tục là khó chịu và tôi tin rằng không nên thực hiện. Một trong những lý do là bạn không biết cách chia tỷ lệ biến liên tục của mình. Và Poisson phụ thuộc rất nhiều vào quy mô! Tôi đã cố gắng giải thích nó với một ví dụ đơn giản ở đây . Vì vậy, vì lý do này một mình tôi không sử dụng Poisson cho bất cứ thứ gì ngoài dữ liệu đếm.

Cũng nên nhớ rằng GLM thực hiện 2 điều - chức năng liên kết (chuyển đổi var phản hồi, đăng nhập trong trường hợp Poisson) và phần dư (phân phối Poisson trong trường hợp này). Hãy suy nghĩ về nhiệm vụ sinh học, về phần dư, và sau đó chọn phương pháp thích hợp. Đôi khi nó có ý nghĩa để sử dụng chuyển đổi log, nhưng ở lại với phần dư được phân phối bình thường.

"nhưng có vẻ như sự khôn ngoan thông thường là bạn không nên chuyển đổi dữ liệu thành mô hình hỗn hợp"

Tôi nghe thấy điều này lần đầu tiên! Không có ý nghĩa gì với tôi cả. Mô hình hỗn hợp có thể giống như một mô hình tuyến tính bình thường, chỉ cần thêm các hiệu ứng ngẫu nhiên. Bạn có thể đặt một trích dẫn chính xác ở đây? Theo ý kiến của tôi, nếu chuyển đổi log sẽ xóa mọi thứ, chỉ cần sử dụng nó!

— Hiếu kỳ
nguồn

Cảm ơn đã giúp đỡ; điều tôi nghĩ là "sự khôn ngoan thông thường" là cách đọc sai về Littel và Milliken. Tôi đã chỉnh sửa câu hỏi của mình và thêm trích dẫn từ L & M 2006.

— N Brouwer

@NBrouwer: vâng, có vẻ như bạn thực sự hiểu sai về nó. Thật khó chịu khi chuyển đổi dữ liệu đếm và thậm chí còn khó chịu hơn khi chuyển đổi dữ liệu liên tục để đếm dữ liệu và cố gắng điều chỉnh Poisson trên đó! Đó là những gì tôi đã cố gắng giải thích cho bạn. Đừng làm điều đó. Chỉ cần đăng nhập chuyển đổi dữ liệu liên tục của bạn khi bạn cần. Điều này là rất phổ biến trong thống kê, không cần phải lo lắng về nó.

— Tò mò

5

Đây là một cuộc thảo luận tuyệt vời khác về cách sử dụng mô hình Poisson để phù hợp với hồi quy log: http://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/ (Tôi đang nói với một người bạn, giống như mục blog cho thấy). Lực đẩy cơ bản là chúng ta chỉ sử dụng một phần của mô hình Poisson là liên kết nhật ký. Phần yêu cầu phương sai bằng với giá trị trung bình có thể được ghi đè bằng ước tính sandwich của phương sai. Đây là tất cả cho dữ liệu iid, tuy nhiên; các phần mở rộng mô hình / hỗn hợp đã được Dimitriy Masterov tham chiếu chính xác .

— StasK
nguồn

1

Nếu vấn đề là tỷ lệ phương sai với giá trị trung bình, nhưng bạn có dữ liệu liên tục, bạn có nghĩ đến việc sử dụng các bản phân phối liên tục có thể giải quyết các vấn đề bạn gặp phải. Có lẽ là một Gamma? Phương sai sẽ có mối quan hệ bậc hai với giá trị trung bình - thực sự giống như một nhị thức âm.

— jitherrnes
nguồn