Các giả định của hồi quy nhị thức âm là gì?


30

Tôi đang làm việc với một tập dữ liệu lớn (bảo mật, vì vậy tôi không thể chia sẻ quá nhiều) và đi đến kết luận là cần phải có hồi quy nhị thức âm. Tôi chưa bao giờ thực hiện hồi quy glm trước đây và tôi không thể tìm thấy bất kỳ thông tin rõ ràng nào về các giả định. Chúng có giống nhau cho MLR không?

Tôi có thể chuyển đổi các biến theo cùng một cách không (tôi đã phát hiện ra việc biến đổi biến phụ thuộc là một cuộc gọi xấu vì nó cần phải là một số tự nhiên)? Tôi đã xác định rằng phân phối nhị thức âm sẽ giúp phân tán quá mức trong dữ liệu của tôi (phương sai là khoảng năm 2000, giá trị trung bình là 48).

Cảm ơn đã giúp đỡ!!

Câu trả lời:


42

Tôi đang làm việc với một tập dữ liệu lớn (bí mật, vì vậy tôi không thể chia sẻ quá nhiều),

Có thể tạo một tập dữ liệu nhỏ có một số đặc điểm chung của dữ liệu thực mà không có tên biến cũng như bất kỳ giá trị thực nào.

và đi đến kết luận một hồi quy nhị thức âm sẽ là cần thiết. Tôi chưa bao giờ thực hiện hồi quy glm trước đây và tôi không thể tìm thấy bất kỳ thông tin rõ ràng nào về các giả định. Chúng có giống với MLR không?

Rõ ràng không! Bạn đã biết rằng bạn cho rằng phản hồi là nhị thức có điều kiện, không phải là điều kiện bình thường. ( Một số giả định được chia sẻ. Độc lập chẳng hạn.)

Hãy để tôi nói về GLM nói chung trước tiên.

GLM bao gồm nhiều hồi quy nhưng khái quát theo nhiều cách:

1) phân phối có điều kiện của đáp ứng (biến phụ thuộc) là từ họ hàm mũ , bao gồm Poisson, nhị thức, gamma, bình thường và nhiều phân phối khác.

2) phản ứng trung bình có liên quan đến các yếu tố dự đoán (biến độc lập) thông qua chức năng liên kết . Mỗi họ phân phối có một chức năng liên kết chính tắc liên quan - ví dụ trong trường hợp Poisson, liên kết chính là nhật ký . Các liên kết chính hầu như luôn luôn là mặc định, nhưng trong hầu hết các phần mềm, bạn thường có một số lựa chọn trong mỗi lựa chọn phân phối. Đối với nhị thức, liên kết chính là logit (công cụ dự đoán tuyến tính đang mô hình hóa , tỷ lệ cược thành công hoặc "1") và đối với Gamma là chính tắc liên kết là nghịch đảo - nhưng trong cả hai trường hợp, các hàm liên kết khác thường được sử dụng.đăng nhập(p1-p)

Vì vậy, nếu phản hồi của bạn là và các yếu tố dự đoán của bạn là và , với hồi quy Poisson với liên kết nhật ký, bạn có thể có mô tả về mức độ trung bình của có liên quan đến :YX1X2YX

E(Ytôi)= =μtôi

đăng nhậpμtôi= =ηtôi ( được gọi là 'dự đoán tuyến tính' và ở đây hàm liên kết là , ký hiệu thường được sử dụng để biểu thị chức năng liên kết)ηđăng nhậpg

ηtôi= =β0+β1x1tôi+β2x2tôi

3) phương sai của đáp ứng không phải là hằng số, nhưng hoạt động thông qua hàm phương sai (một hàm của giá trị trung bình, có thể nhân với một tham số tỷ lệ). Ví dụ, phương sai của Poisson bằng với giá trị trung bình, trong khi đối với gamma, nó tỷ lệ với bình phương trung bình. (Các phân phối gần đúng cho phép một số mức độ tách rời chức năng Phương sai khỏi phân phối giả định)

-

Vậy những giả định nào giống với những gì bạn nhớ từ MLR?

  • Độc lập vẫn còn đó.

  • Homoskedasticity không còn được giả định; phương sai rõ ràng là một hàm của giá trị trung bình và do đó nói chung thay đổi theo các yếu tố dự đoán (vì vậy trong khi mô hình nói chung là không đồng nhất, thì dị thể có dạng cụ thể).

  • Độ tuyến tính: Mô hình vẫn tuyến tính trong các tham số (tức là bộ dự báo tuyến tính là ), nhưng đáp ứng dự kiến không liên quan tuyến tính với chúng (trừ khi bạn sử dụng chức năng liên kết nhận dạng!).Xβ

  • Sự phân phối của phản hồi về cơ bản là tổng quát hơn

Việc giải thích đầu ra theo nhiều cách khá giống nhau; bạn vẫn có thể xem xét các hệ số ước tính được chia cho các lỗi tiêu chuẩn của chúng và giải thích chúng tương tự nhau (chúng không có triệu chứng - một phép thử Wald z - nhưng mọi người dường như vẫn gọi chúng là các tỷ số t, ngay cả khi không có lý thuyết nào tạo ra họ phân phối nói chung).t

So sánh giữa các mô hình lồng nhau (thông qua các thiết lập giống như "bảng anova") có một chút khác biệt, nhưng tương tự nhau (liên quan đến các thử nghiệm chi bình phương không triệu chứng). Nếu bạn cảm thấy thoải mái với AIC và BIC, những điều này có thể được tính toán.

Các loại màn hình chẩn đoán tương tự thường được sử dụng, nhưng có thể khó diễn giải hơn.

Phần lớn trực giác hồi quy tuyến tính của bạn sẽ tiếp tục nếu bạn giữ sự khác biệt trong tâm trí.

Đây là một ví dụ về những điều bạn có thể làm với một glm mà bạn thực sự không thể làm với hồi quy tuyến tính (thực sự, hầu hết mọi người sẽ sử dụng hồi quy phi tuyến cho việc này, nhưng GLM thì dễ dàng và đẹp hơn cho nó) trong trường hợp bình thường - là bình thường , được mô hình hóa như một hàm của :Yx

E(Y)= =điểm kinh nghiệm(η)= =điểm kinh nghiệm(Xβ)= =điểm kinh nghiệm(β0+β1x) (nghĩa là liên kết nhật ký)

Var(Y)= =σ2

Đó là, một hình vuông nhỏ nhất phù hợp với mối quan hệ theo cấp số nhân giữa và .Yx

Tôi có thể chuyển đổi các biến theo cùng một cách không (tôi đã phát hiện ra việc biến đổi biến phụ thuộc là một cuộc gọi xấu vì nó cần phải là một số tự nhiên)?

Bạn (thường) không muốn chuyển đổi phản hồi (DV). Đôi khi bạn có thể muốn biến đổi các yếu tố dự đoán (IV) để đạt được độ tuyến tính của yếu tố dự báo tuyến tính.

Tôi đã xác định rằng phân phối nhị thức âm sẽ giúp phân tán quá mức trong dữ liệu của tôi (phương sai là khoảng năm 2000, giá trị trung bình là 48).

Vâng, nó có thể đối phó với quá mức. Nhưng nâng niu mang không nhầm lẫn giữa điều kiện phân tán với vô điều kiện phân tán.

Một cách tiếp cận phổ biến khác - nếu một chút ít hơn và do đó ít thỏa mãn với tâm trí của tôi - là hồi quy quasi-Poisson (hồi quy Poisson quá mức).

Với nhị thức âm, nó thuộc họ hàm mũ nếu bạn chỉ định một trong các tham số cụ thể của nó (cách nó thường được xác định lại cho GLMS ít nhất). Một số gói sẽ phù hợp với nó nếu bạn chỉ định tham số, các gói khác sẽ bao bọc ước tính ML của tham số đó (nói thông qua khả năng hồ sơ) xung quanh một thói quen GLM, tự động hóa quy trình. Một số sẽ giới hạn bạn trong một bộ phân phối nhỏ hơn; bạn không nói phần mềm nào bạn có thể sử dụng nên rất khó để nói nhiều hơn ở đó.

Tôi nghĩ thông thường liên kết log có xu hướng được sử dụng với hồi quy nhị thức âm.

Có một số tài liệu ở cấp độ giới thiệu (có thể tìm thấy qua google) dẫn qua một số phân tích dữ liệu cơ bản của Poisson GLM và sau đó phân tích dữ liệu nhị phân âm tính, nhưng trước tiên bạn có thể xem xét một cuốn sách về GLM và có thể thực hiện hồi quy Poisson một chút chỉ để làm quen với điều đó.


1
+1 Tôi đồng ý với COOLSerdash. Rất nhiều thông tin tốt ở đây! Ngoài tìm kiếm được đề xuất trên Google, tôi đặc biệt khuyên dùng một cuốn sách giáo khoa có tên là Kinh tế lượng theo ví dụ của Gujarati. Chương 12 bao gồm mô hình hồi quy Poisson và mô hình hồi quy nhị thức âm. Như tiêu đề của cuốn sách cho thấy, có những ví dụ. Dữ liệu được sử dụng trong cuốn sách có sẵn từ trang web đồng hành của sách và do đó là bản tóm tắt của Chương 12 . Tôi đề nghị OP kiểm tra điều này.
Graeme Walsh

Tôi đến bữa tiệc muộn ... nhưng câu trả lời này đã giúp tôi hiểu các mô hình tuyến tính tổng quát tốt hơn cả một chồng sách ở thư viện.
haff

0

Một số tài liệu tham khảo mà tôi thấy hữu ích trong việc phân tích dữ liệu với phân phối nhị thức âm cụ thể (bao gồm các giả định liệt kê) và GLM / GLMM thường là:

Bates, DM, B. Machler, B. Bolker và S. Walker. 2015. Lắp mô hình hiệu ứng hỗn hợp tuyến tính bằng lme4. J. Stat. Phần mềm 67: 1-48.

Bolker, BM, ME Brooks, CJ Clark, SW Geange, JR Poulsen, MHH Stevens và J. White. Các mô hình hỗn hợp tuyến tính tổng quát: một hướng dẫn thực tế cho sinh thái và tiến hóa. Xu hướng sinh thái và tiến hóa 127-135.

Zeileis A., C. Keleiber C và S. Jackman 2008. Mô hình hồi quy cho dữ liệu đếm trong RJ Stat. Phần mềm. 27: 1-25

Zuur AF, EN Iene, N. Walker, AA Saveliev và GM Smith. 2009. Các mô hình hiệu ứng hỗn hợp và các phần mở rộng trong hệ sinh thái với R. Springer, NY, USA.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.