Dự đoán tỷ lệ số không
Tôi là tác giả của gói statmod và là tác giả chung của gói tweedie. Tất cả mọi thứ trong ví dụ của bạn đang hoạt động chính xác. Mã này được hạch toán chính xác cho bất kỳ số không nào có thể có trong dữ liệu.
Như Glen_b và Tim đã giải thích, giá trị trung bình dự đoán sẽ không bao giờ chính xác bằng 0, trừ khi xác suất bằng 0 là 100%. Điều có thể được quan tâm mặc dù là tỷ lệ số 0 được dự đoán và điều này có thể dễ dàng được trích xuất từ mô hình phù hợp như tôi trình bày dưới đây.
Dưới đây là một ví dụ làm việc hợp lý hơn. Đầu tiên mô phỏng một số dữ liệu:
> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.3829 1.0306 2.7737 5.0287 7.4644 20.0855
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0000 0.8482 2.9249 4.7164 6.1522 24.3897
> sum(y==0)
[1] 12
Dữ liệu chứa 12 số không.
Bây giờ phù hợp với một Tweedie glm:
> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)
Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))
Deviance Residuals:
Min 1Q Median 3Q Max
-2.71253 -0.94685 -0.07556 0.69089 1.84013
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.816784 0.168764 -4.84 4.84e-06 ***
x 0.036748 0.002275 16.15 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for Tweedie family taken to be 0.8578628)
Null deviance: 363.26 on 99 degrees of freedom
Residual deviance: 103.70 on 98 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
xϕ
x
> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
1 2 3 4 5
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024
> Prob.Zero[96:100]
96 97 98 99 100
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06
Vì vậy, tỷ lệ số 0 dự đoán thay đổi từ 38,1% tại các giá trị trung bình nhỏ nhất xuống 4,5e-6 ở các giá trị trung bình lớn nhất.
Công thức xác suất bằng 0 chính xác có thể được tìm thấy trong Mật độ gia đình Tweedie: 2001 Phương pháp đánh giá hoặc đánh giá sê-ri Dunn & Smyth (2005) về mật độ mô hình phân tán theo cấp số nhân của Tweedie .