Xem xét mô hình chướng ngại vật dự đoán dữ liệu đếm y
từ một người dự đoán bình thường x
:
set.seed(1839)
# simulate poisson with many zeros
x <- rnorm(100)
e <- rnorm(100)
y <- rpois(100, exp(-1.5 + x + e))
# how many zeroes?
table(y == 0)
FALSE TRUE
31 69
Trong trường hợp này, tôi có dữ liệu đếm với 69 số không và 31 số dương. Không bao giờ nghĩ rằng đây là, theo định nghĩa của thủ tục tạo dữ liệu, một quy trình Poisson, bởi vì câu hỏi của tôi là về các mô hình vượt rào.
Giả sử tôi muốn xử lý các số 0 thừa này bằng mô hình chướng ngại vật. Từ việc tôi đọc về chúng, có vẻ như các mô hình vượt rào không phải là mô hình thực tế trên mỗi se họ đang thực hiện hai phân tích khác nhau theo trình tự. Đầu tiên, hồi quy logistic dự đoán giá trị có dương so với không. Thứ hai, một hồi quy Poisson không cắt ngắn chỉ bao gồm các trường hợp khác không. Bước thứ hai này cảm thấy sai đối với tôi vì nó (a) vứt bỏ dữ liệu hoàn toàn tốt, điều này (b) có thể dẫn đến các vấn đề về điện vì phần lớn dữ liệu là số không và (c) về cơ bản không phải là "mô hình" trong chính nó , nhưng chỉ tuần tự chạy hai mô hình khác nhau.
Vì vậy, tôi đã thử một "mô hình chướng ngại vật" thay vì chỉ chạy hồi quy Poisson logistic và không cắt ngắn. Họ đã cho tôi câu trả lời giống hệt nhau (tôi viết tắt là đầu ra, vì sự ngắn gọn):
> # hurdle output
> summary(pscl::hurdle(y ~ x))
Count model coefficients (truncated poisson with log link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x 0.7180 0.2834 2.533 0.0113 *
Zero hurdle model coefficients (binomial with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.7772 0.2400 -3.238 0.001204 **
x 1.1173 0.2945 3.794 0.000148 ***
> # separate models output
> summary(VGAM::vglm(y[y > 0] ~ x[y > 0], family = pospoisson()))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.5182 0.3597 -1.441 0.1497
x[y > 0] 0.7180 0.2834 2.533 0.0113 *
> summary(glm(I(y == 0) ~ x, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.7772 0.2400 3.238 0.001204 **
x -1.1173 0.2945 -3.794 0.000148 ***
---
Điều này có vẻ khó hiểu với tôi vì nhiều biểu diễn toán học khác nhau của mô hình bao gồm xác suất quan sát là khác không trong ước tính các trường hợp đếm dương, nhưng các mô hình tôi chạy ở trên hoàn toàn bỏ qua nhau. Ví dụ, đây là từ Chương 5, trang 128 của Mô hình tuyến tính tổng quát của Smithson & Merkle cho các biến phụ thuộc giới hạn phân loại và liên tục :
... Thứ hai, xác suất mà giả định bất kỳ giá trị nào (không và số nguyên dương) phải bằng một. Điều này không được đảm bảo trong phương trình (5.33). Để giải quyết vấn đề này, chúng tôi nhân xác suất Poisson với xác suất thành công Bernoulli π . Các vấn đề này yêu cầu chúng tôi thể hiện mô hình rào cản ở trên là trong đó , ,
là các đồng biến cho mô hình Poisson, là các biến số cho mô hình hồi quy logistic và và là các hệ số hồi quy tương ứng ... .
Bằng cách thực hiện hai mô hình tách biệt hoàn toàn với một mô hình khác, dường như đó là những mô hình vượt rào, tôi không thấy được kết hợp như thế nào để dự đoán các trường hợp đếm tích cực. Nhưng dựa trên cách tôi có thể sao chép chức năng bằng cách chỉ chạy hai mô hình khác nhau, tôi không thấy cách đóng vai trò trong Poisson bị cắt ngắn hồi quy nào cả.hurdle
Tôi có hiểu mô hình rào cản chính xác không? Có vẻ như hai người chỉ đang chạy hai mô hình tuần tự: Thứ nhất, một hậu cần; Thứ hai, một Poisson, hoàn toàn bỏ qua các trường hợp trong đó . Tôi sẽ đánh giá cao nếu ai đó có thể giải tỏa sự nhầm lẫn của tôi với doanh nghiệp .π
Nếu tôi đúng rằng đó là mô hình rào cản là gì, định nghĩa của mô hình "rào cản", nói chung là gì? Hãy tưởng tượng hai kịch bản khác nhau:
Hãy tưởng tượng mô hình hóa khả năng cạnh tranh của các cuộc bầu cử bằng cách nhìn vào điểm số cạnh tranh (1 - (tỷ lệ phiếu bầu của người chiến thắng - tỷ lệ phiếu bầu của người chạy bộ)). Đây là [0, 1), vì không có mối quan hệ nào (ví dụ: 1). Một mô hình rào cản có ý nghĩa ở đây, bởi vì có một quá trình (a) là cuộc bầu cử không được kiểm chứng? và (b) nếu không, điều gì đã dự đoán khả năng cạnh tranh? Vì vậy, trước tiên chúng tôi thực hiện hồi quy logistic để phân tích 0 so với (0, 1). Sau đó, chúng tôi thực hiện hồi quy beta để phân tích các trường hợp (0, 1).
Hãy tưởng tượng một nghiên cứu tâm lý điển hình. Các phản hồi là [1, 7], giống như thang đo Likert truyền thống, với hiệu ứng trần rất lớn ở mức 7. Người ta có thể thực hiện một mô hình vượt rào đó là hồi quy logistic của [1, 7) so với 7, và sau đó là hồi quy Tobit cho mọi trường hợp phản ứng quan sát là <7.
Sẽ an toàn nếu gọi cả hai mô hình này là "rào cản" , ngay cả khi tôi ước tính chúng với hai mô hình tuần tự (logistic và sau đó là beta trong trường hợp đầu tiên, logistic và sau đó là Tobit trong lần thứ hai)?
pscl::hurdle
, nhưng nó trông giống nhau trong Công thức 5 ở đây: cran.r-project.org/web/packages/pscl/vignettes/countreg.pdf Hoặc có lẽ tôi Tôi vẫn còn thiếu một cái gì đó cơ bản sẽ làm cho nó nhấp cho tôi?
hurdle()
. Trong cặp / họa tiết của chúng tôi, chúng tôi cố gắng nhấn mạnh các khối xây dựng chung hơn, mặc dù.