Sự khác biệt giữa các mô hình không thổi phồng và trở ngại là gì?


81

Tôi tự hỏi liệu có sự khác biệt rõ ràng giữa các phân phối (mô hình) được gọi là không phân phối (mô hình) và được gọi là phân phối vượt rào (mô hình) không? Các thuật ngữ xảy ra khá thường xuyên trong tài liệu và tôi nghi ngờ chúng không giống nhau, nhưng bạn có thể giải thích cho tôi sự khác biệt trong các thuật ngữ đơn giản không?

Câu trả lời:


80

Cảm ơn bạn cho câu hỏi thú vị!

Sự khác biệt: Một hạn chế của các mô hình đếm tiêu chuẩn là các số 0 và số khác (dương) được giả định là đến từ cùng một quá trình tạo dữ liệu. Với các mô hình rào cản , hai quá trình này không bị hạn chế là giống nhau. Ý tưởng cơ bản là xác suất Bernoulli chi phối kết quả nhị phân cho dù một biến số đếm có thực hiện bằng 0 hay dương. Nếu việc thực hiện là tích cực, rào cản được vượt qua và phân phối có điều kiện của các mặt tích cực được điều chỉnh bởi một mô hình dữ liệu đếm rút ngắn ở mức 0. Với các mô hình không phồng, biến trả lời được mô hình hóa như một hỗn hợp của phân phối Bernoulli (hoặc gọi nó là khối lượng điểm bằng 0) và phân phối Poisson (hoặc bất kỳ phân phối đếm nào khác được hỗ trợ trên các số nguyên không âm). Để biết thêm chi tiết và công thức, xem, ví dụ, Gurmu và Trivingi (2011) và Dalrymple, Hudson và Ford (2003).

Ví dụ: Các mô hình vượt rào có thể được thúc đẩy bởi các quá trình ra quyết định tuần tự mà các cá nhân phải đối mặt. Trước tiên, bạn quyết định xem bạn có cần mua thứ gì không, và sau đó bạn quyết định số lượng của thứ đó (phải là số dương). Khi bạn được phép (hoặc có khả năng) không mua gì sau khi bạn quyết định mua thứ gì đó là một ví dụ về tình huống mô hình không lạm phát là phù hợp. Zeros có thể đến từ hai nguồn: a) không có quyết định mua; b) muốn mua nhưng cuối cùng không mua gì (ví dụ hết hàng).

Beta: Mô hình rào cản là trường hợp đặc biệt của mô hình hai phần được mô tả trong Chương 16 của Frees (2011). Ở đó, chúng ta sẽ thấy rằng đối với các mô hình hai phần, lượng chăm sóc sức khỏe được sử dụng có thể là một biến số liên tục cũng như đếm. Vì vậy, cái được gọi một cách khó hiểu là "phân phối beta không phồng" trong tài liệu trên thực tế thuộc về lớp phân phối và mô hình hai phần (rất phổ biến trong khoa học chuyên gia tính toán), phù hợp với định nghĩa trên của mô hình rào cản . Cuốn sách tuyệt vời này đã thảo luận về các mô hình không phồng lên trong phần 12.4.1 và các mô hình vượt rào trong phần 12.4.2, với các công thức và ví dụ từ các ứng dụng Actuarial.

Lịch sử: các mô hình Poisson (ZIP) không bị thổi phồng mà không có đồng biến có một lịch sử lâu dài (xem ví dụ: Johnson và Kotz, 1969). Hình thức chung của các mô hình hồi quy ZIP kết hợp hiệp phương sai là do Lambert (1992). Các mô hình vượt rào được đề xuất đầu tiên bởi một nhà thống kê người Canada Cragg (1971), và sau đó được phát triển thêm bởi Mullahy (1986). Bạn cũng có thể xem xét Croston (1972), trong đó số lượng hình học dương được sử dụng cùng với quy trình Bernoulli để mô tả một quy trình có giá trị nguyên được thống trị bởi các số không.

R: Cuối cùng, nếu bạn sử dụng R, có gói pscl cho "Các lớp và phương pháp cho R được phát triển trong Phòng thí nghiệm tính toán khoa học chính trị" của Simon Jackman, có chứa các hàm Hurdle () và zeroinfl () của Achim Zeileis.

Các tài liệu tham khảo sau đây đã được tư vấn để sản xuất ở trên:

  • Gurmu, S. & Trivingi, Số dư thừa PK trong các mô hình đếm cho các chuyến đi giải trí Tạp chí Thống kê Kinh doanh & Kinh tế, 1996, 14, 469-477
  • Johnson, N., Kotz, S., Phân phối trong Thống kê: Phân phối rời rạc. 1969, Houghton MiZin, Boston
  • Lambert, D., hồi quy Poisson bằng không với một ứng dụng cho các khiếm khuyết trong sản xuất. Technometrics, 1992, 34 (1), 1 trận14.
  • Cragg, JG Một số mô hình thống kê cho các biến phụ thuộc có giới hạn với ứng dụng cho nhu cầu đối với hàng hóa lâu bền Kinh tế lượng, 1971, 39, 829-844
  • Mullahy, J. Đặc điểm kỹ thuật và thử nghiệm một số mô hình dữ liệu đếm được sửa đổi Tạp chí Kinh tế lượng, 1986, 33, 341-365
  • Frees, Mô hình hồi quy EW với các ứng dụng tài chính và tài chính của Đại học Cambridge, 2011
  • Dalrymple, ML; Hudson, IL & Ford, RPK Finite Hỗn hợp, các mô hình Poisson và Hurdle không phồng bằng ứng dụng cho Phân tích dữ liệu và thống kê tính toán của SIDS, 2003, 41, 491-504
  • Croston, Dự báo JD và Kiểm soát chứng khoán cho các nghiên cứu hoạt động không liên tục hàng quý, năm 1972, 23, 289-303

2
Là một mô hình rào cản thực sự là một "mô hình", sau đó? Hoặc là nó đang chạy hai mô hình tuần tự và ước tính riêng biệt? Hãy tưởng tượng mô hình hóa khả năng cạnh tranh của các cuộc bầu cử bằng cách nhìn vào điểm số cạnh tranh (1 - tỷ lệ chiến thắng). Điều này bị giới hạn [0, 1), vì không có mối quan hệ nào (ví dụ: 1). Vì vậy, trước tiên chúng tôi thực hiện hồi quy logistic để phân tích 0 so với (0, 1). Sau đó, chúng tôi thực hiện hồi quy beta để phân tích các trường hợp (0, 1). Có vẻ như đây là hai mô hình hoàn toàn khác nhau, với các hệ số riêng và ước lượng riêng? Hay tôi đang thiếu một cái gì đó?
Đánh dấu

Ví dụ, bạn đề cập trong câu trả lời của mình rằng số không có thể là do (a) quyết định không mua xe, hoặc (b) muốn, nhưng nó đã hết hàng. Có vẻ như một mô hình rào cản sẽ không thể phân biệt giữa hai, vì chúng được thực hiện tuần tự ...?
Đánh dấu

Xem xét một ví dụ khác: các câu trả lời là [1, 7], giống như thang đo Likert truyền thống, với hiệu ứng trần rất lớn ở mức 7. Người ta có thể thực hiện một mô hình vượt rào đó là hồi quy logistic của [1, 7) so với 7, và sau đó là hồi quy Tobit đối với tất cả các trường hợp trong đó các phản hồi quan sát là <7. Một lần nữa, chúng ta có hai bộ hệ số hồi quy và chúng được ước tính riêng. Có vẻ như chúng ta không cùng mô hình hóa các quá trình này, nhưng trong hai mô hình hoàn toàn khác nhau? Vì vậy, trở ngại thực sự là một mô hình, hay chỉ là quá trình thực hiện hai loại mô hình tuyến tính tổng quát khác nhau liên tiếp?
Đánh dấu

Tôi đã mở rộng câu hỏi này trong bài đăng của riêng tôi ở đây: stats.stackexchange.com/questions/320924/NH
Mark White

47

Các mô hình Hurdle giả định rằng chỉ có một quy trình có thể tạo ra số 0, trong khi các mô hình thổi phồng bằng không cho rằng có 2 quy trình khác nhau có thể tạo ra số không.

Các mô hình vượt rào giả định 2 loại đối tượng: (1) những người không bao giờ trải nghiệm kết quả và (2) những người luôn trải nghiệm kết quả ít nhất một lần. Các mô hình không thổi phồng khái niệm hóa các đối tượng như (1) những người không bao giờ trải nghiệm kết quả và (2) những người có thể trải nghiệm kết quả nhưng không phải lúc nào cũng vậy.

Nói một cách đơn giản: cả hai mô hình không phồng và cản trở được mô tả trong hai phần.

π1ππ

Phần thứ hai là phần đếm, xảy ra khi hệ thống "bật". Đây là nơi mà các mô hình không thổi phồng và rào cản khác nhau. Trong các mô hình không tăng, số lượng vẫn có thể bằng không. Trong các mô hình rào cản họ phải là khác không. Đối với phần này, các mô hình thổi phồng bằng không sử dụng phân phối xác suất rời rạc "thông thường" trong khi các mô hình vượt rào sử dụng hàm phân phối xác suất rời rạc không cắt ngắn.

Ví dụ về mô hình rào cản: Một nhà sản xuất ô tô muốn so sánh hai chương trình kiểm soát chất lượng cho ô tô của mình. Nó sẽ so sánh chúng trên cơ sở số lượng yêu cầu bảo hành được nộp. Đối với mỗi chương trình, một nhóm khách hàng được chọn ngẫu nhiên được theo dõi trong 1 năm và số lượng yêu cầu bảo hành mà họ nộp được tính. Xác suất lạm phát cho mỗi trong hai chương trình sau đó được so sánh. Nhà nước của Off off là người Hồi giáo không có yêu cầu bồi thường.

Ví dụ về mô hình bơm hơi bằng 0: Trong cùng một nghiên cứu ở trên, các nhà nghiên cứu phát hiện ra rằng một số sửa chữa trên ô tô đã được sửa chữa mà không cần nộp đơn yêu cầu bảo hành. Theo cách này, các số 0 là một hỗn hợp của sự vắng mặt của các vấn đề kiểm soát chất lượng cũng như sự hiện diện của các vấn đề kiểm soát chất lượng không liên quan đến yêu cầu bảo hành. Trạng thái của Off off có nghĩa là Bang đã nộp đơn không yêu cầu bồi thường. Trong khi đó, bang bang trên thế giới có nghĩa là đã nộp ít nhất một yêu cầu HOẶC đã sửa chữa mà không cần nộp đơn khiếu nại.

Xem ở đây để nghiên cứu trong đó cả hai loại mô hình đã được áp dụng cho cùng một tập dữ liệu.


Cảm ơn các câu trả lời chi tiết. Bạn có thể xem thuật ngữ thích hợp để phân phối beta tiêu chuẩn có thêm số không? Sử dụng định nghĩa của bạn về các mô hình bơm hơi bằng 0, rõ ràng có một nguồn số không nên được gọi là số 0 bị thổi phồng ... Xem phần thảo luận này .stackexchange.com/questions/81343/ Khăn
skulker

2
Tôi thích "phân phối beta không thêm" như được đề xuất bởi @Hibernating
Darren James

10

yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1

4

Về các mô hình rào cản, đây là trích dẫn từ Những tiến bộ trong mô hình toán học và thống kê (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008):

P(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

ϕ

Đối với các mô hình không lạm phát, Wikipedia nói :

Mô hình bơm hơi bằng không là mô hình thống kê dựa trên phân phối xác suất thổi phồng bằng 0, tức là phân phối cho phép quan sát giá trị 0 thường xuyên.

[1]

Pr(yj=0)=π+(1π)eλ
Pr(yj=hi)=(1π)λhieλhi!,hi1
yjλiiπ

Từ Arnold và các đồng nghiệp (2008), tôi thấy rằng một mô hình vượt rào là một trường hợp đặc biệt của lớp mô hình vượt rào chung hơn, nhưng từ một tài liệu tham khảo trên Wikipedia ( Hall, 2004 ), tôi cũng thấy rằng một số không mô hình thổi phồng có thể được giới hạn trên. Tôi hoàn toàn không hiểu sự khác biệt trong các công thức, nhưng chúng có vẻ khá giống nhau (cả hai đều sử dụng một ví dụ rất giống nhau, yêu cầu bảo hiểm). Tôi hy vọng các câu trả lời khác có thể giúp giải thích bất kỳ sự khác biệt quan trọng nào, và câu trả lời này sẽ giúp tạo tiền đề cho những điều đó.

Tài liệu tham khảo của Wikipedia:

  1. Lambert, D. (1992). Hồi quy Poisson bằng 0, với một ứng dụng cho các khiếm khuyết trong sản xuất. Technometrics, 34 (1), 1 bóng14.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.