Không phân phối thổi phồng, họ thực sự là gì?


15

Tôi đang đấu tranh để hiểu phân phối thổi phồng bằng không. Họ là ai? Vấn đề ở đây là gì?

Nếu tôi có dữ liệu với nhiều số 0, thì trước tiên tôi có thể điều chỉnh hồi quy logistic, tính toán xác suất của số 0 và sau đó tôi có thể loại bỏ tất cả các số 0, sau đó điều chỉnh hồi quy thông thường bằng cách sử dụng phân phối của mình (ví dụ poisson).

Sau đó, một người nào đó nói với tôi "này, sử dụng phân phối bị thổi phồng bằng không", nhưng nhìn lên, nó dường như không làm gì khác hơn những gì tôi đề xuất ở trên? Nó có một tham số thông thường , và sau đó một tham số p khác để mô hình xác suất bằng 0? Nó chỉ làm cả hai việc cùng một lúc không?μp


3
Tại sao bạn loại bỏ tất cả số không? bạn có thể làm điều đó cùng nhau, trước tiên, bạn tính xác suất 0 và 1 và sử dụng trọng số đó cho phân phối Poisson của bạn, đó là mô hình thổi phồng (phân phối). Đọc này, nó khá rõ ràng en.wikipedia.org/wiki/Zero-inflated_model
Deep North

Câu trả lời:


13

phù hợp với hồi quy logistic trước tiên hãy tính xác suất của các số 0 và sau đó tôi có thể loại bỏ tất cả các số 0, và sau đó điều chỉnh một hồi quy thông thường bằng cách sử dụng lựa chọn phân phối của tôi (ví dụ: poisson)

Bạn hoàn toàn đúng. Đây là một cách để phù hợp với mô hình thổi phồng bằng không (hoặc như Achim Zeileis chỉ ra trong các nhận xét, đây hoàn toàn là một "mô hình vượt rào", mà người ta có thể xem là trường hợp đặc biệt của mô hình bơm hơi bằng không).

Sự khác biệt giữa quy trình bạn mô tả và mô hình không thổi phồng "tất cả trong một" là lan truyền lỗi. Giống như tất cả các quy trình hai bước khác trong thống kê, độ không đảm bảo chung của các dự đoán của bạn trong bước 2 sẽ không tính đến sự không chắc chắn về việc dự đoán có nên là 0 hay không.

Đôi khi đây là một điều ác cần thiết. May mắn thay, nó không cần thiết trong trường hợp này. Trong R, bạn có thể sử dụng pscl::hurdle()hoặc fitdistrplus::fitdist().


bạn có thể giải thích điều này "sự không chắc chắn chung của các dự đoán của bạn trong bước 2 sẽ không tính đến sự không chắc chắn về việc dự đoán có nên là 0 hay không"? Khi bạn thực hiện Zip Poisson, bạn sẽ nhân xác suất của phần đầu tiên với chức năng khả năng của mô hình Poisson, do đó bước 2 sẽ tính đến sự không chắc chắn của 0 hoặc 1.
Deep North

1
P(Y=1|X=x)=0.510,51

3
@ssdecontrol Thông thường, điều này không được gọi là mô hình thổi phồng bằng không mà là mô hình vượt rào (ví dụ pscl::hurdle():). Và để có được sự phù hợp phù hợp, phân phối được sử dụng cho dữ liệu không có số 0 phải được cắt ngắn (hoặc không dẫn đến bất kỳ số 0 nào ở vị trí đầu tiên). Xem trả lời của tôi để biết thêm chi tiết.
Achim Zeileis

9

Ý tưởng cơ bản mà bạn mô tả là một cách tiếp cận hợp lệ và nó thường được gọi là mô hình rào cản (hoặc mô hình hai phần) chứ không phải là mô hình thổi phồng bằng không .

Tuy nhiên, điều quan trọng là mô hình cho các tài khoản dữ liệu khác không để loại bỏ các số không. Nếu bạn khớp một mô hình Poisson với dữ liệu không có số 0 thì điều này gần như chắc chắn sẽ tạo ra sự phù hợp kém vì phân phối Poisson luôn có xác suất dương cho 0. Cách thay thế tự nhiên là sử dụng phân phối Poisson rút ngắn bằng 0, đây là cách tiếp cận cổ điển để vượt qua hồi quy cho dữ liệu đếm.

Sự khác biệt chính giữa mô hình thổi phồng bằng không và mô hình rào cản là xác suất được mô hình hóa trong phần nhị phân của hồi quy. Đối với các mô hình rào cản, nó chỉ đơn giản là xác suất bằng 0 so với khác không. Trong các mô hình không phồng lên, xác suất có một số 0 vượt quá , nghĩa là xác suất của số 0 không phải do phân phối không tăng (ví dụ: Poisson).

Để thảo luận về cả hai mô hình vượt rào và lạm phát bằng không đối với dữ liệu đếm trong R, hãy xem bản thảo của chúng tôi được xuất bản trong JSS và cũng được gửi dưới dạng họa tiết cho psclgói: http://dx.doi.org/10.18637/jss.v027.i08


7

Những gì ssdecontrol nói là rất chính xác. Nhưng tôi muốn thêm một vài xu vào cuộc thảo luận.

Tôi vừa xem bài giảng về các mô hình Zero Inflated để biết dữ liệu đếm của Richard McElreath trên YouTube.

Sẽ hợp lý khi ước tính p trong khi kiểm soát các biến đang giải thích tốc độ của mô hình Poisson thuần túy, đặc biệt nếu bạn cho rằng cơ hội số 0 quan sát được bắt nguồn từ phân phối Poisson không phải là 100%.

Không phân phối thổi phồng như một mô hình đa cấp

Cũng có ý nghĩa khi bạn xem xét các tham số của mô hình, vì bạn kết thúc với hai biến để ước tính, p và tốc độ của mô hình Poisson và hai phương trình, trường hợp khi số đếm bằng 0 và trường hợp khi số đếm khác với số không.

Nguồn hình ảnh: Xem xét lại thống kê - Một khóa học Bayes với các ví dụ về R và Stan của Richard McElreath

Chỉnh sửa : lỗi đánh máy


Tài liệu tham khảo cho các tài liệu học tập được đánh giá cao ... nhưng làm thế nào điều này trả lời câu hỏi trong tầm tay? Điều này trông giống như một bình luận được đăng dưới dạng câu trả lời ...
RTbecard
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.