Câu hỏi hồi quy nhị thức âm - có phải là một mô hình kém?

Tôi đang đọc một bài viết rất thú vị của Người bán và Shmueli về các mô hình hồi quy cho dữ liệu đếm. Gần đầu (trang 944), họ trích dẫn McCullaugh và Nelder (1989) nói rằng hồi quy nhị thức âm là không phổ biến và có một liên kết chính tắc có vấn đề. Tôi tìm thấy đoạn văn được giới thiệu và nó nói (trang 374 của M và N)

"Ít sử dụng dường như được tạo ra từ phân phối nhị thức âm trong các ứng dụng, đặc biệt, việc sử dụng liên kết chính tắc là vấn đề vì nó làm cho bộ dự báo tuyến tính trở thành chức năng của một tham số của hàm phương sai".

Trên trang trước họ cung cấp chức năng liên kết đó là

η = \log (\frac{α}{1 + α}) = \log (\frac{μ}{μ + k})

$\eta = \log\left(\frac{\alpha}{1 + \alpha} \right) = \log\left( \frac{\mu}{\mu + k}\right)$

và hàm phương sai

V = μ + \frac{μ^{2}}{k} .

$V = \mu + \frac{\mu^2}{k}.$

Phân phối được đưa ra là

P r (Y = y; α, k) = \frac{(y + k - 1)!}{y! (k - 1)!} \frac{α^{y}}{(1 + α)^{y = k}}

$Pr(Y = y; \alpha,k) = \frac{(y+k-1)!}{y!(k-1)!}\frac{\alpha^y}{(1+\alpha)^{y=k}}$

Tôi đã tìm thấy hồi quy NB được sử dụng khá rộng rãi (và được đề xuất trong một số sách). Có phải tất cả những sử dụng và khuyến nghị trong lỗi?

Hậu quả của liên kết có vấn đề này là gì?

regression modeling negative-binomial

— Peter Flom - Tái lập Monica
nguồn

Có lẽ phải làm ít nhất một phần để trích dẫn được quy cho năm 1989. Tôi sẵn sàng đặt cược rằng hầu hết các sử dụng hiện tại của NB là gần đây hơn. Mô hình NB thường rất hữu ích khi bạn đang xử lý các vấn đề phân tán quá mức trong trường hợp khả năng nhị thức thông thường (tức là hồi quy logistic).

Tôi rất mơ hồ về các chi tiết (và thậm chí còn không phải là người mới khi nói đến NegBin) nhưng nhớ lại Joseph Hilbe đã thảo luận về điều này trong cuốn sách Hồi quy nhị thức âm tính (tái bản lần 2). Ông bình luận trên p.9 rằng là một biểu hiện tự nhiên của chế độ xem hỗn hợp Poisson-gamma của NegBin. Sau cuốn sách năm 1989 của họ, Nelder đã phát triển macro kk cho GenStat, trong đó anh ta ủng hộ mối quan hệ trực tiếp giữa và với phương sai và rằng tham số trực tiếp này đã được chứng minh rất phổ biến gần đây.

V

$V$

α

$\alpha$

μ^{2}

$\mu^2$

V = μ + α μ^{2}

$V = \mu + \alpha \mu^2$

— Phục hồi Monica - G. Simpson

Tôi sẽ lấy những bình luận đó bằng một hạt muối. Re MN: Họ đã có một định nghĩa rất nghiêm ngặt về GLM là gì (vì những lý do chính đáng tôi nghĩ). Các mô hình Negbin với tham số hình dạng không xác định không tuân thủ định nghĩa rất nghiêm ngặt về GLM của McCullagh, Nelder, Pregibon, v.v. Vì vậy, về mặt kỹ thuật, nó không phải là GLM trong hầu hết các trường hợp sử dụng. Giải thích như một lớp mô hình hơi khác nhau và được ước tính thông qua khả năng tối đa, không có vấn đề nữa. Re S & S cần một trường hợp để thúc đẩy COM Poisson, vì vậy trích dẫn của M & N có ích.

— Momo

Tôi không thấy lý do tại sao các thuộc tính xấu được cho là của liên kết chính tắc làm cho mô hình negbin nói chung không thể chấp nhận được. Bạn chọn chức năng liên kết của mình trên cơ sở dữ liệu và vấn đề bạn đang cố gắng giải quyết, không phải bằng cách tham khảo lý thuyết toán học. Trong thực tế, tôi nghi ngờ rằng bất cứ ai đang sử dụng các liên kết kinh điển. Đó là một câu chuyện tương tự như GLM gamma; liên kết chính tắc là nghịch đảo, nhưng tôi cá rằng sẽ có nhiều người sử dụng liên kết nhật ký hơn vì dễ giải thích và ứng dụng tự nhiên vào nhiều tình huống.

— Hồng Ooi

Theo như tôi có thể nói, gần như không bao giờ có lý do để sử dụng mô hình nhị thức âm. Ngay cả khi dữ liệu của bạn thực sự được tạo ra bởi một mô hình nhị thức âm, thì hồi quy Poisson mang lại các ước lượng nhất quán về tác động của các biến độc lập đối với đáp ứng trung bình --- và đây hầu như luôn là điều mà nhà nghiên cứu muốn ước tính. Các lỗi tiêu chuẩn thông thường là sai nếu giả định Poisson sai, nhưng bootstrapping sửa lỗi đó. Bất cứ khi nào , bạn luôn có thể ước tính bằng Poisson.

E {Y | X} = e x p (X β)

$E\{Y|X\}=exp(X\beta)$

β

$\beta$

— Hóa đơn

Tôi tranh chấp các xác nhận từ một số quan điểm:

i) Mặc dù liên kết chính tắc có thể là 'có vấn đề', nhưng không rõ ràng ngay lập tức rằng ai đó sẽ quan tâm đến liên kết đó - trong khi đó, ví dụ, liên kết nhật ký trong Poisson thường thuận tiện và tự nhiên, và vì vậy mọi người thường quan tâm đến điều đó. Mặc dù vậy, trong trường hợp Poisson mọi người nhìn vào các chức năng liên kết khác.

Vì vậy, chúng tôi không cần hạn chế xem xét đến liên kết chính tắc.

Một "liên kết có vấn đề" không phải là một lý lẽ đặc biệt để chống lại hồi quy nhị thức âm.

Ví dụ, liên kết nhật ký dường như là một lựa chọn khá hợp lý trong một số ứng dụng nhị thức âm, ví dụ, trong trường hợp dữ liệu có thể là Poisson một cách có điều kiện nhưng có sự không đồng nhất về tốc độ Poisson - liên kết nhật ký có thể gần như có thể hiểu được như trong trường hợp Poisson.

Để so sánh, tôi sử dụng Gamma GLM một cách hợp lý thường xuyên, nhưng tôi không nhớ (ví dụ trong sách giáo khoa) đã từng sử dụng liên kết chính tắc của nó - Tôi sử dụng liên kết nhật ký hầu như luôn luôn, vì đó là một liên kết tự nhiên hơn để sử dụng cho các loại vấn đề Tôi có xu hướng làm việc với.

ii) "Dường như ít được tạo ra ... trong các ứng dụng" có thể gần như đúng vào năm 1989, nhưng tôi không nghĩ rằng nó hiện đang tồn tại. [Ngay cả khi nó đã đứng vững, đó không phải là một cuộc tranh luận rằng đó là một mô hình kém, chỉ là nó không được sử dụng rộng rãi - điều này có thể xảy ra vì mọi lý do.]

Hồi quy nhị thức âm đã trở nên được sử dụng rộng rãi hơn vì nó có sẵn rộng rãi hơn và tôi thấy nó được sử dụng rộng rãi hơn trong các ứng dụng hiện nay. Ví dụ, trong R, tôi sử dụng các hàm trong MASSđó hỗ trợ nó (và cuốn sách tương ứng, Venables và Ripley, Thống kê ứng dụng hiện đại với S , sử dụng hồi quy nhị thức âm trong một số ứng dụng thú vị) - và tôi đã sử dụng một số chức năng trong một vài gói khác ngay cả trước khi tôi sử dụng nó trong R.

Tôi đã sử dụng hồi quy nhị thức âm hơn, thậm chí sớm hơn, nếu nó đã có sẵn cho tôi; Tôi hy vọng điều tương tự cũng đúng với nhiều người - vì vậy lập luận rằng nó ít được sử dụng dường như là một trong những cơ hội.

Mặc dù có thể tránh hồi quy nhị thức âm, (bằng cách sử dụng các mô hình Poisson quá mức), hoặc một số tình huống thực sự không quan trọng lắm với những gì bạn làm , có nhiều lý do tại sao điều đó không hoàn toàn thỏa đáng.

Ví dụ: khi mối quan tâm của tôi thiên về các khoảng dự đoán hơn là ước tính các hệ số, thì thực tế là các hệ số không thay đổi có thể không phải là một lý do thích hợp để tránh nhị thức âm.

Tất nhiên, vẫn còn những lựa chọn khác mô hình hóa sự phân tán (chẳng hạn như Conway-Maxwell-Poisson là chủ đề của bài báo mà bạn đề cập); trong khi đó là những lựa chọn chắc chắn, đôi khi có những tình huống tôi khá vui khi nhị thức âm là một "phù hợp" hợp lý như là một mô hình cho vấn đề của tôi.

Có phải tất cả những sử dụng và khuyến nghị trong lỗi?

Tôi thực sự không nghĩ như vậy! Nếu họ là như vậy, nó đã trở nên rõ ràng hợp lý cho đến bây giờ. Thật vậy, nếu McCullagh và Nelder tiếp tục cảm thấy như vậy, họ không thiếu cơ hội, cũng không thiếu diễn đàn để làm rõ các vấn đề còn lại. Nelder đã qua đời (2010), nhưng McCullagh rõ ràng vẫn còn ở đây .

Nếu đoạn văn ngắn đó trong McCullagh và Nelder là tất cả những gì họ có, tôi sẽ nói đó là một cuộc tranh luận khá yếu.

Hậu quả của liên kết có vấn đề này là gì?

Tôi nghĩ vấn đề này chủ yếu là một trong các hàm phương sai và hàm liên kết có liên quan chứ không liên quan (như trường hợp của hầu hết các họ GLM chính khác được sử dụng phổ biến), điều này làm cho việc giải thích theo thang đo của bộ dự báo tuyến tính ít đơn giản hơn (điều đó không có nghĩa là vấn đề duy nhất; tôi nghĩ đó là vấn đề chính của một học viên). Đó không phải là một thỏa thuận nhiều.

Bằng cách so sánh, tôi thấy các mô hình Tweedie được sử dụng rộng rãi hơn trong thời gian gần đây và tôi không thấy mọi người liên quan đến mình với thực tế là xuất hiện cả trong chức năng phương sai và liên kết chính tắc (trong hầu hết các trường hợp thậm chí còn đáng lo ngại về liên kết chính tắc). $p$

Không có gì trong số này là lấy đi bất cứ thứ gì từ các mô hình Conway-Maxwell-Poisson (chủ đề của bài viết Người bán và Shmueli), cũng đang được sử dụng rộng rãi hơn - Tôi chắc chắn không muốn tham gia vào một nhị thức âm so với COM Trận đấu bắn -Poisson.

Tôi chỉ đơn giản là không xem nó là cái này hay cái khác, hơn bất kỳ (bây giờ nói rộng rãi hơn) Tôi có lập trường thuần túy Bayesian hoặc hoàn toàn không thường xuyên về các vấn đề thống kê. Tôi sẽ sử dụng bất cứ điều gì khiến tôi trở thành sự lựa chọn tốt nhất trong những hoàn cảnh cụ thể mà tôi gặp phải và mỗi lựa chọn có xu hướng có những ưu điểm và nhược điểm.

— Glen_b -Reinstate Monica
nguồn