Mô hình hồi quy nào là thích hợp nhất để sử dụng với dữ liệu đếm?


10

Tôi đang cố gắng để có được một chút vào số liệu thống kê, nhưng tôi bị mắc kẹt với một cái gì đó. Dữ liệu của tôi như sau:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Bây giờ tôi muốn xây dựng một mô hình hồi quy để có thể dự đoán số lượng gen cho bất kỳ năm nào dựa trên dữ liệu. Tôi đã làm điều đó với hồi quy tuyến tính cho đến bây giờ, nhưng tôi đã thực hiện một số đọc và nó dường như không phải là lựa chọn tốt nhất cho loại dữ liệu này. Tôi đã đọc rằng hồi quy Poisson có thể hữu ích, nhưng tôi không chắc nên sử dụng cái gì. Vì vậy, câu hỏi của tôi là:

Có một mô hình hồi quy chung cho loại dữ liệu này? Nếu không, tôi phải làm gì để tìm ra phương pháp nào phù hợp nhất để sử dụng (về những gì tôi phải tìm hiểu về dữ liệu)?


Câu trả lời của tôi ở đây: stats.stackexchange.com/questions/142338/ trên rất phù hợp.
kjetil b halvorsen

2
Đây có phải là về dữ liệu chuỗi thời gian?
Michael M

Câu trả lời:


22

Không, không có mô hình hồi quy dữ liệu đếm chung .

(Giống như không có mô hình hồi quy chung cho dữ liệu liên tục. Mô hình tuyến tính với nhiễu homoskedastic phân phối thông thường được giả định phổ biến nhất và được trang bị bằng cách sử dụng bình phương tối thiểu thông thường. Tuy nhiên, hồi quy gamma hoặc hồi quy theo hàm mũ thường được sử dụng để xử lý các giả định phân phối lỗi khác nhau hoặc các mô hình không đồng nhất có điều kiện, như ARCH hoặc GARCH trong bối cảnh chuỗi thời gian, để xử lý nhiễu không đồng nhất.)

Các mô hình phổ biến bao gồm , khi bạn viết hoặc hồi quy nhị thức âm. Những mô hình này đủ rộng rãi để tìm tất cả các loại phần mềm, hướng dẫn hoặc sách giáo khoa. Tôi đặc biệt thích Hồi quy nhị thức âm của Hilbe . Câu hỏi trước đó thảo luận về cách chọn giữa các mô hình dữ liệu đếm khác nhau.

Nếu bạn có "nhiều" số không trong dữ liệu của mình và đặc biệt nếu bạn nghi ngờ rằng số không có thể được điều khiển bởi một quy trình tạo dữ liệu khác với số không (hoặc một số số không đến từ một DGP, và các số không và số không khác đến từ một DGP khác), các mô hình có thể hữu ích. Phổ biến nhất là hồi quy Poisson (ZIP) bằng 0.

Bạn cũng có thể đọc lướt qua các câu hỏi trước đây của chúng tôi được gắn thẻ cả "hồi quy" và "dữ liệu đếm" .


EDIT: @MichaelM nêu lên một điểm tốt. Điều này không giống như chuỗi thời gian của dữ liệu đếm. (Và dữ liệu còn thiếu cho năm 1992 và 1994 gợi ý cho tôi rằng nên có một số 0 trong mỗi năm này. Nếu vậy, hãy bao gồm nó. Zero là một số hợp lệ và nó mang thông tin.) Chúng tôi cũng đề nghị xem qua các câu hỏi trước đây của chúng tôi được gắn thẻ cả "chuỗi thời gian" và "dữ liệu đếm" .


4
Tốt, nhưng bình thường tối thiểu bình thường là một thủ tục ước tính, không phải là một mô hình. Bạn biết điều đó, nhưng đó là một sự nhầm lẫn phổ biến, vì vậy chúng ta không nên viết thư cho nó.
Nick Cox

@NickCox: điểm tốt. Tôi đã chỉnh sửa bài viết của mình.
Stephan Kolassa

11

Phân phối "mặc định", được sử dụng và mô tả phổ biến nhất cho dữ liệu đếm là phân phối Poisson . Thông thường nó được minh họa bằng cách sử dụng ví dụ về cách sử dụng thực tế đầu tiên của nó:

Một ứng dụng thực tế của bản phân phối này đã được Ladislaus Bortkiewicz đưa ra vào năm 1898 khi ông được giao nhiệm vụ điều tra số lượng binh sĩ trong quân đội Phổ bị giết chết một cách tình cờ bởi những cú đá ngựa; thí nghiệm này đã giới thiệu phân phối Poisson cho lĩnh vực kỹ thuật tin cậy.

Phân phối Poisson được tham số hóa theo tỷ lệ trên mỗi khoảng thời gian cố định ( cũng có nghĩa là và phương sai). Trong trường hợp hồi quy, chúng ta có thể sử dụng phân phối Poisson trong mô hình tuyến tính tổng quát với hàm liên kết log-linearλλλ

E(Y|X,β)=λ=exp(β0+β1X1++βkXk)

đó được gọi là hồi quy Poisson , vì chúng ta có thể giả sử rằng là tỷ lệ phân phối Poisson. Tuy nhiên, lưu ý rằng đối với hồi quy log-linear, bạn không phải đưa ra giả định đó và chỉ cần sử dụng GLM với liên kết nhật ký với dữ liệu không đếm được. Khi diễn giải các tham số bạn cần nhớ rằng, do sử dụng biến đổi nhật ký, thay đổi trong biến độc lập dẫn đến thay đổi nhân trong số lượng dự đoán.λ

Vấn đề với việc sử dụng phân phối Poisson cho dữ liệu thực tế là nó giả định có nghĩa là bằng với phương sai. Vi phạm giả định này được gọi là quá mức . Trong những trường hợp như vậy, bạn luôn có thể sử dụng mô hình quasi-Poisson , mô hình log-linear không Poisson (đối với số lượng lớn Poisson có thể được xấp xỉ bằng phân phối chuẩn), hồi quy nhị thức âm (liên quan chặt chẽ với Poisson; xem Berk và MacDonald, 2008), hoặc các mô hình khác, như được mô tả bởi Stephan Kolassa .

Đối với một số giới thiệu thân thiện về hồi quy Poisson, bạn cũng có thể kiểm tra giấy tờ của Lavery (2010) hoặc Coxe, West và Aiken (2009).


Lavery, R. (2010). Hướng dẫn hoạt hình: Giới thiệu về hồi quy Poisson. Giấy NESUG, sa04.

Coxe, S., Tây, SG, & Aiken, LS (2009). Phân tích dữ liệu đếm: Giới thiệu nhẹ nhàng về hồi quy Poisson và các lựa chọn thay thế của nó. Tạp chí đánh giá tính cách, 91 (2), 121-136.

Berk, R., & MacDonald, JM (2008). Quá mức và hồi quy Poisson. Tạp chí tội phạm định lượng, 24 (3), 269-284.


2
Bạn giới thiệu phù hợp với phân phối Poisson bằng cách sử dụng hồi quy Poisson. Đây không phải là một yêu cầu tuyệt đối đối với hồi quy Poisson rằng phản hồi có phân phối Poisson. Hồi quy Poisson hoạt động tốt cho nhiều phản ứng tích cực, bao gồm cả các biến đo lường. Đó là một ý tưởng tốt để cẩn thận về các lỗi tiêu chuẩn cho suy luận, nhưng đó là dễ dàng. Xem ví dụ: blog.stata.com/2011/08/22/ Kẻ
Nick Cox

@NickCox đúng, nhưng câu hỏi nghiêm túc về dữ liệu đếm, vì vậy có lẽ không cần phải đi sâu vào chi tiết về các cách sử dụng khác của hồi quy Poisson.
Tim

3
Không cần phải đi vào chi tiết, đồng ý; nhưng mọi lý do để đẩy hồi quy Poisson một chút. Tiện ích của nó là đáng kinh ngạc ít được biết đến; nó xứng đáng được ít nhất là trong nhiều văn bản trung gian. Ngoài ra, và quan trọng hơn ở đây, tôi không đồng ý rằng một khi phương sai không bằng có nghĩa là bạn nên sử dụng các mô hình khác; Điều này nhầm lẫn hai vấn đề khá khác nhau.
Nick Cox

Hơn nữa, thực tế là hồi quy Poisson có thể được sử dụng với các biến đo được thích hợp, vì trong các trường hợp như vậy, liệu phương sai bằng có có nghĩa hay không thậm chí không có ý nghĩa vì chúng có các kích thước khác nhau. Những trường hợp như vậy nhấn mạnh rằng yêu cầu là không có điều đó.
Nick Cox

3
Một phần của vấn đề là thuật ngữ. Hồi quy loglinear theo quan điểm của tôi sẽ là một thuật ngữ tốt hơn so với hồi quy Poisson, với điểm mấu chốt là Poisson không phải là trung tâm. Nhưng nếu một thuật ngữ như vậy được sử dụng và hiểu hoàn toàn, thì nó thường hoàn toàn dành cho việc mô hình hóa dữ liệu phân loại được tính. Vì vậy, thuật ngữ hoàn toàn sai theo cách vòng: loglinear nên là Poisson và Poisson nên là loglinear. Dù bằng cách nào, cốt lõi của vấn đề là là một cổng tuyệt vời của cuộc gọi đầu tiên cho cấu trúc trung bình của các phản hồi không âm nói chung. exp(Xb)
Nick Cox

0

Poisson hoặc nhị thức âm là hai mô hình được sử dụng rộng rãi cho dữ liệu đếm. Tôi sẽ chọn nhị thức âm vì nó có giả định tốt hơn cho phương sai.


3
Bạn có ý nghĩa gì bởi "tốt hơn"?
Tim

2
Vì nó đứng đây là một nhận xét nhiều hơn là một câu trả lời. Bạn có nghĩ rằng bạn có thể mở rộng về nó? Bạn chắc chắn nên suy nghĩ về nhận xét của Tim - từ "tốt hơn" rất mơ hồ
Silverfish

Các mô hình nhị thức âm (NB) xử lý dữ liệu đếm quá mức (OD) bằng cách giả sử rằng đó là do phân cụm. Sau đó, nó sử dụng một mô hình đánh chặn ngẫu nhiên với cấu trúc Poisson được phân phối 'bên trong' và một gamma được phân phối 'giữa'. Cái nào tốt hơn phụ thuộc vào giả định của bạn cho OD. Nếu bạn giả sử mức độ OD thay đổi theo kích thước cụm, NB có thể giúp đỡ. Nếu bạn giả sử bạn giả sử OD tỷ lệ thuận với kích thước cụm, quasi-poisson có giả định này. Ước tính NB sẽ bị sai lệch nếu OD chỉ là nhiễu Gaussian. Poisson sẽ ít sai lệch hơn, nhưng các lỗi tiêu chuẩn có thể quá nhỏ với OD.
Mainard
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.