Tại sao hồi quy Poisson được sử dụng cho dữ liệu đếm?

33

Tôi hiểu rằng đối với các bộ dữ liệu nhất định như bỏ phiếu, nó hoạt động tốt hơn. Tại sao hồi quy Poisson được sử dụng trên hồi quy tuyến tính thông thường hoặc hồi quy logistic? Động lực toán học cho nó là gì?

count-data poisson-regression

— zaxtax
nguồn

Xem câu trả lời của tôi cho bài đăng này để biết quan điểm khác: stats.stackexchange.com/questions/142338/ Mạnh

— kjetil b halvorsen

51

Dữ liệu phân tán Poisson thực chất có giá trị nguyên, điều này có ý nghĩa đối với dữ liệu đếm. Bình phương tối thiểu thông thường (OLS, mà bạn gọi là "hồi quy tuyến tính") giả định rằng các giá trị thực thường được phân phối xung quanh giá trị mong đợi và có thể lấy bất kỳ giá trị thực, dương hoặc âm, số nguyên hoặc phân số, bất cứ điều gì. Cuối cùng, hồi quy logistic chỉ hoạt động đối với dữ liệu có giá trị 0-1 (có giá trị TRUE-FALSE), như "có bệnh" so với "không có bệnh". Do đó, phân phối Poisson có ý nghĩa nhất đối với dữ liệu đếm.

Điều đó nói rằng, một phân phối bình thường thường là một xấp xỉ khá tốt với phân phối Poisson cho dữ liệu có giá trị trung bình trên 30 hoặc hơn. Và trong khung hồi quy, nơi bạn có các yếu tố dự đoán ảnh hưởng đến số đếm, một OLS với phân phối chuẩn của nó có thể dễ phù hợp hơn và thực sự sẽ tổng quát hơn, vì phân phối và hồi quy Poisson cho rằng giá trị trung bình và phương sai là bằng nhau, trong khi OLS có thể xử lý các phương tiện và phương sai không bằng nhau - ví dụ, đối với một mô hình dữ liệu đếm với các phương tiện và phương sai khác nhau, người ta có thể sử dụng phân phối nhị thức âm , chẳng hạn.

— S. Kolassa - Tái lập Monica
nguồn

17

Lưu ý rằng chỉ phù hợp sử dụng OLS không đòi hỏi bình thường - đó là khi bạn làm điều suy luận trên các thông số mà bạn cần asssumption phân phối chuẩn

— Dason

1

@Dason: Tôi đứng sửa.

— S. Kolassa - Tái lập lại

3

Nếu bạn sử dụng công cụ ước tính phương sai Huber / White / Sandwich, bạn có thể thư giãn giả định phương sai trung bình

— Dimitriy V. Masterov

@Dason Mặc dù điều đó không bắt buộc, nhưng sử dụng đúng mẫu mô hình cho những gì bạn phù hợp hầu như luôn mang lại ước tính tốt hơn và bạn có thể thấy nó trong các lô dư.

— Joe

24

Về cơ bản, đó là vì hồi quy tuyến tính và logistic tạo ra các loại giả định sai về kết quả đếm trông như thế nào. Hãy tưởng tượng mô hình của bạn là một robot rất ngu ngốc sẽ không ngừng tuân theo mệnh lệnh của bạn, bất kể những mệnh lệnh đó vô nghĩa đến mức nào; nó hoàn toàn thiếu khả năng đánh giá những gì bạn nói với nó. Nếu bạn nói với robot của mình rằng thứ gì đó như phiếu bầu được phân phối liên tục từ vô cực âm đến vô cực, thì đó là những gì nó tin là phiếu bầu và nó có thể mang đến cho bạn những dự đoán vô nghĩa (Ross Perot sẽ nhận được -10.469 phiếu trong cuộc bầu cử sắp tới).

Ngược lại, phân phối Poisson rời rạc và tích cực (hoặc không ... không được tính là dương, có?). Ở mức tối thiểu, điều này sẽ buộc robot của bạn đưa ra câu trả lời thực sự có thể xảy ra trong cuộc sống thực. Họ có thể hoặc có thể không tốt câu trả lời, nhưng họ sẽ ít nhất được rút ra từ tập thể của "số phiếu bầu".

Tất nhiên, Poisson có vấn đề riêng của nó: nó giả định rằng giá trị trung bình của biến số phiếu cũng sẽ giống như phương sai của nó. Tôi không biết liệu tôi đã bao giờ thực sự nhìn thấy một ví dụ không giả tạo trong đó điều này là đúng chưa. May mắn thay, những người thông minh đã đưa ra các phân phối khác cũng tích cực và rời rạc, nhưng thêm các tham số để cho phép phương sai, er, khác nhau (ví dụ, hồi quy nhị thức âm).

— Matt Parker
nguồn

5

$T = 1$ $\lambda$ $T = t$ $\lambda.t$ $\lambda.t$

p (N = n) = \frac{(λ . t)^{n} e^{- λ . t}}{n!}

$p(N=n) = \frac{(\lambda.t)^{n}e^{-\lambda.t}}{n!}$

Thông qua phương pháp này và phương pháp khả năng tối đa & các mô hình tuyến tính tổng quát (hoặc một số phương pháp khác) bạn đến hồi quy Poisson .

Nói một cách đơn giản, Poisson Regression là mô hình phù hợp với các giả định của quy trình ngẫu nhiên cơ bản tạo ra một số lượng nhỏ các sự kiện với tốc độ (tức là số trên mỗi đơn vị thời gian) được xác định bởi các biến khác trong mô hình.

— Thylacoleo
nguồn

3

Những người khác về cơ bản đã nói điều tương tự mà tôi sẽ làm nhưng tôi nghĩ tôi sẽ thêm vào đó. Nó phụ thuộc vào những gì bạn đang làm chính xác nhưng rất nhiều lần chúng tôi muốn khái niệm hóa vấn đề / dữ liệu trong tay. Đây là một cách tiếp cận hơi khác so với việc chỉ xây dựng một mô hình dự đoán khá tốt. Nếu chúng ta đang cố gắng khái niệm hóa những gì đang diễn ra thì sẽ hợp lý khi mô hình hóa dữ liệu bằng cách sử dụng phân phối không âm chỉ đặt khối lượng ở các giá trị nguyên. Chúng tôi cũng có nhiều kết quả mà về cơ bản sôi sục khi nói rằng trong những điều kiện nhất định, dữ liệu thực sự làphân phối như một poisson. Vì vậy, nếu mục tiêu của chúng tôi là khái niệm hóa vấn đề thì thực sự có ý nghĩa khi sử dụng poisson làm biến trả lời. Những người khác đã chỉ ra những lý do khác tại sao đó là một ý tưởng tốt nhưng nếu bạn thực sự cố gắng khái niệm hóa vấn đề và thực sự hiểu làm thế nào dữ liệu mà bạn nhìn thấy có thể được tạo ra thì sử dụng hồi quy poisson có ý nghĩa rất lớn trong một số tình huống.

— Dason
nguồn

2

Sự hiểu biết của tôi chủ yếu là vì số lượng luôn dương và rời rạc, Poisson có thể tóm tắt dữ liệu đó bằng một tham số. Cái bắt chính là phương sai bằng giá trị trung bình.