Tại sao phần dư của Pearson từ hồi quy nhị thức âm nhỏ hơn so với hồi quy poisson?


9

Tôi có những dữ liệu này:

set.seed(1)
predictor  <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)

Tôi đã chạy một hồi quy poisson

poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")

Và một hồi quy nhị thức âm:

require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)

Sau đó, tôi tính toán cho các số liệu thống kê phân tán cho hồi quy poisson:

sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)

# [1] 145.4905

Và hồi quy nhị thức âm:

sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)

# [1] 0.7650289

Có ai có thể giải thích, KHÔNG CÓ THIẾT BỊ SỬ DỤNG, tại sao thống kê phân tán cho hồi quy nhị thức âm nhỏ hơn đáng kể so với thống kê phân tán cho hồi quy poisson?

Câu trả lời:


9

Điều này khá đơn giản, nhưng "không sử dụng các phương trình" là một bất lợi đáng kể. Tôi có thể giải thích nó bằng lời, nhưng những từ đó nhất thiết sẽ phản ánh các phương trình. Tôi hy vọng rằng nó sẽ được chấp nhận / vẫn có giá trị với bạn. (Các phương trình liên quan không khó.)

Có một số loại dư. Phần dư thô chỉ đơn giản là sự khác biệt giữa các giá trị phản hồi được quan sát (trong trường hợp của bạn counts) và các giá trị phản hồi dự đoán của mô hình. Phần dư Pearson chia chúng cho độ lệch chuẩn (căn bậc hai của hàm phương sai cho phiên bản cụ thể của mô hình tuyến tính tổng quát mà bạn đang sử dụng).

Độ lệch chuẩn liên quan đến phân phối Poisson nhỏ hơn so với nhị thức âm . Do đó, khi bạn chia cho mẫu số lớn hơn, thương số nhỏ hơn.

Ngoài ra, nhị thức âm tính phù hợp hơn với trường hợp của bạn, bởi vì bạn countssẽ được phân phối dưới dạng đồng phục trong dân số. Đó là, phương sai của họ sẽ không bằng trung bình của họ.


4
Mặc dù OP yêu cầu một lời giải thích phi toán học, nhưng vẫn rất tốt để xem lời biện minh toán học (hoặc một số không kém phần nghiêm ngặt và rõ ràng) cho câu trả lời này. Khi đọc câu hỏi, trực giác của tôi là "Bởi vì Poisson là trường hợp đặc biệt (giới hạn) của NB và NB có nhiều tham số hơn, nên có sự linh hoạt hơn trong việc điều chỉnh, do đó, tất nhiên mọi biện pháp hợp lý còn lại không nên tăng khi thay thế một GLisson Poisson bởi NB GLM. " Tôi tự hỏi liệu trực giác như vậy là thực sự chính xác.
whuber

Nếu , E [ X ] = V [ X ] = λ . Nếu X NegBin ( r , p ) , E [ X ] = p r / ( 1 - p )V [ X ] = p r / ( 1 - p ) 2XPoisson(λ)E[X]=V[X]=λXNegBin(r,p)E[X]=pr/(1p)V[X]=pr/(1p)2. Vì vậy, phương sai Poisson bằng với giá trị trung bình, phương sai NegBin lớn hơn giá trị trung bình ( ). Đây là lý do tại sao "độ lệch chuẩn liên quan đến phân phối Poisson nhỏ hơn so với nhị thức âm". p<1(1p)2<(1p)
Sergio

3
@Sergio Điểm mấu chốt của vấn đề này, tuy nhiên, là trong mô hình Poisson chúng tôi đang làm việc với các ước tính λ hơn λ chính nó và trong mô hình NB chúng ta tương tự như làm việc với hai ước tính rp . So sánh của bạn do đó không trực tiếp áp dụng. Không thực sự viết ra các công thức cho các MLE trong cả hai mô hình, không rõ ràng mối quan hệ nào phải nằm giữa các bộ ước tính đó. Hơn nữa, phần dư Pearson là một tỷ lệ và lập luận về phương sai chỉ đề cập đến mẫu số, chỉ là một nửa câu chuyện. λ^λr^p^
whuber

Ước tính MLE là phù hợp. Vấn đề là khi, như gung nói, "số lượng sẽ được phân phối như một bộ đồng phục trong dân số. Đó là, phương sai của chúng sẽ không bằng giá trị trung bình của chúng", bạn sẽ không bao giờ có thể có được phương sai Poisson ước tính lớn hơn ước tính Poisson có nghĩa là, ngay cả khi ước tính của bạn là không thiên vị và nhất quán. Đó là một vấn đề sai chính tả.
Sergio

5

Đối với mô hình Poisson, nếu Nguyện vọng cho thứ quan sát Y iμ i sai của nó là μ i , & Pearson còn lại do đóiYiμiμi

yiμ^iμ^i

nơi μ là ước tính giá trị trung bình. Các tham số của mô hình nhị thức âm được sử dụng trong MASS được giải thích ở đây . Nếu Nguyện vọng cho tôi thứ quan sát Y iμ i sai của nó là μ i + μ 2μ^iYiμi , và Pearson dư do đóμi+μ2θ

yiμ~iμ~i+μ~2θ

μ~θμ^μ~iMô hình dự đoán, chúng sẽ tiến gần hơn và nói chung, việc thêm một tham số sẽ phù hợp hơn với tất cả các quan sát, mặc dù tôi không biết làm thế nào để chứng minh điều này một cách chặt chẽ. Tất cả đều giống nhau, số lượng dân số mà bạn ước tính sẽ lớn hơn nếu mô hình Poisson giữ, vì vậy nó không gây ngạc nhiên.]


1
μi

@whuber Trong trường hợp này, hóa ra các giá trị được trang bị cho cả hai mô hình gần như giống hệt nhau. Xét cho cùng, mô hình "thật" thực sự chỉ có một giao thoa và về cơ bản là mô hình hóa giá trị trung bình do không có mối quan hệ giữa x và Y trong mô phỏng.
JSK

1
μi

1
μi

1
(yi|λ,vi,r)Poisson(λvi)(vi|λ,r)Gamma(r,r)(yi|λ,r)NB(r,λr+λ)viyi>λvi>1
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.