Một mô hình cho dữ liệu không âm với việc đóng cục ở các số không (Tweedie GLM, GLM không phồng, v.v.) có thể dự đoán các số không chính xác không?


15

Phân phối Tweedie có thể mô hình hóa dữ liệu bị lệch với khối lượng điểm bằng 0 khi tham số (số mũ trong mối quan hệ phương sai trung bình) nằm trong khoảng từ 1 đến 2.p

Tương tự như vậy, một mô hình không phồng lên (dù là liên tục hay rời rạc) có thể có số lượng không lớn.

Tôi gặp khó khăn khi hiểu tại sao khi tôi dự đoán hoặc tính toán các giá trị phù hợp với các loại mô hình này, tất cả các giá trị dự đoán đều khác không.

Những mô hình này thực sự có thể dự đoán số không chính xác?

Ví dụ

library(tweedie)
library(statmod)
# generate data
y <- rtweedie( 100, xi=1.3, mu=1, phi=1)  # xi=p
x <- y+rnorm( length(y), 0, 0.2)
# estimate p
out <- tweedie.profile( y~1, p.vec=seq(1.1, 1.9, length=9))
# fit glm
fit <- glm( y ~ x, family=tweedie(var.power=out$p.max, link.power=0))
# predict
pred <- predict.glm(fit, newdata=data.frame(x=x), type="response")

predbây giờ không chứa bất kỳ số không. Tôi nghĩ rằng sự hữu ích của các mô hình như phân phối Tweedie đến từ khả năng dự đoán các số 0 chính xác và phần liên tục.

Tôi biết rằng trong ví dụ của tôi, biến xkhông mang tính dự đoán nhiều.


Cũng xem xét mô hình phản ứng thứ tự bán tham, cho phép phân phối độc đoán cho . Y
Frank Harrell

Câu trả lời:


16

Lưu ý rằng giá trị dự đoán trong GLM là một giá trị trung bình.

Cho bất kỳ phân phối trên các giá trị không âm, để dự đoán giá trị trung bình bằng 0, phân phối của nó sẽ phải hoàn toàn tăng đột biến ở 0.

Tuy nhiên, với một liên kết nhật ký, bạn sẽ không bao giờ khớp với giá trị trung bình bằng 0 (vì điều đó sẽ yêu cầu phải đi đến - η ).

Vì vậy, vấn đề của bạn không phải là vấn đề với Tweedie, nhưng tổng quát hơn nhiều; ví dụ, bạn có cùng một vấn đề với Poisson (ví dụ Poisson GLM thông thường).

Tôi nghĩ rằng sự hữu ích của phân phối Tweedie đến từ khả năng dự đoán các số 0 chính xác và phần liên tục.

Vì việc dự đoán các số 0 chính xác sẽ không xảy ra đối với bất kỳ phân phối nào trên các giá trị không âm với liên kết nhật ký, nên suy nghĩ của bạn về điều này phải bị nhầm lẫn.

Một trong những điểm hấp dẫn của nó là nó có thể mô hình các số 0 chính xác trong dữ liệu, không phải là các dự đoán trung bình sẽ là 0. [Tất nhiên một phân phối được trang bị với giá trị trung bình vẫn có thể có xác suất chính xác bằng 0, mặc dù giá trị trung bình phải vượt quá 0 Ví dụ, một khoảng dự đoán phù hợp cũng có thể bao gồm 0.]

Điều quan trọng không phải là phân phối được trang bị bao gồm bất kỳ tỷ lệ số không đáng kể nào - điều đó không làm cho giá trị trung bình được trang bị bằng không.

Lưu ý rằng nếu bạn thay đổi chức năng liên kết của mình để nói một liên kết nhận dạng, thì nó không thực sự giải quyết được vấn đề của bạn - giá trị trung bình của biến ngẫu nhiên không âm không phải là số không sẽ là số dương.


1
cảm ơn lời giải thích của bạn Tôi đã so sánh một tweedie glm với một gamma glm và các betas gần như giống hệt nhau, cho dù dữ liệu có chứa bao nhiêu số không (tôi thay đổi các số không thành một giá trị rất nhỏ cho gamma glm). Và cách đề xuất để dự đoán số không và phần liên tục đồng thời là gì.
spore234

2
@ spore234 Bạn có thể cuộn mô hình rào cản gamma của riêng mình, mô hình này sẽ có rào cản nhị thức để dự đoán 0/1 và mô hình gamma phù hợp với dữ liệu khác không. Đây là một liên kết đến một bài đăng trên blog thảo luận về mô hình này và làm thế nào để khớp một tay trong R. Ở một bên, Nếu một cái gì đó liên tục, làm thế nào bạn biết rằng nó chính xác bằng không? Là thiết bị đo lường của bạn có khả năng đo lường hạt mịn như vậy?
Phục hồi Monica - G. Simpson

2
@spore, Bạn sẽ phải nói rõ hơn về ý nghĩa thực sự của bạn khi "dự đoán số không"; câu trả lời của tôi đã thiết lập lý do tại sao không có mô hình phân phối nào khác được sử dụng để thay thế Tweedie sẽ đưa ra dự đoán trung bình bằng 0 (các mô hình không bị thổi phồng và vượt rào của NB cũng có cùng vấn đề với các dự đoán trung bình của chúng). Đưa ra một dự đoán trung bình là những gì bạn có nghĩa là "dự đoán" khi bạn sử dụng GLM, bây giờ bạn có ý nghĩa gì với nó? Nếu bạn thay đổi nó thành một cái gì đó trong đó mô hình 0-thổi phồng hoặc vượt rào có ý nghĩa, Tweedie có thể đáp ứng điều kiện tương tự.
Glen_b -Reinstate Monica

1
Nó thực sự phụ thuộc vào ý nghĩa của bạn khi "dự đoán" (vì bạn không có nghĩa là "dự báo ý nghĩa" mà bạn cần nói bạn đang tìm kiếm điều gì - bạn có muốn dự đoán xác suất bằng không? Bạn có muốn dự báo trung bình? Cái gì khác?), và những loại điều bạn coi là "tốt hơn" để so sánh có thể được thực hiện.
Glen_b -Reinstate Monica

1
@ spore234 Vấn đề, một lần nữa, là bạn sử dụng từ "dự đoán" nhưng không xác định được ý của bạn bằng "dự đoán" (tôi tiếp tục hỏi!). Bạn dường như đã loại trừ cả hai cách giải thích rõ ràng nhất về thuật ngữ này trong tình huống này, vì vậy bạn cần nói ý của bạn là . Khi bạn nói "dự đoán chi phí của người này sẽ là bao nhiêu" bạn thực sự có ý gì? Lưu ý rằng bạn không thể có được chi phí chính xác cho mỗi người ... vậy "dự đoán" này có những tính chất gì?
Glen_b -Reinstate Monica

10

Dự đoán tỷ lệ số không

Tôi là tác giả của gói statmod và là tác giả chung của gói tweedie. Tất cả mọi thứ trong ví dụ của bạn đang hoạt động chính xác. Mã này được hạch toán chính xác cho bất kỳ số không nào có thể có trong dữ liệu.

Như Glen_b và Tim đã giải thích, giá trị trung bình dự đoán sẽ không bao giờ chính xác bằng 0, trừ khi xác suất bằng 0 là 100%. Điều có thể được quan tâm mặc dù là tỷ lệ số 0 được dự đoán và điều này có thể dễ dàng được trích xuất từ ​​mô hình phù hợp như tôi trình bày dưới đây.

Dưới đây là một ví dụ làm việc hợp lý hơn. Đầu tiên mô phỏng một số dữ liệu:

> library(statmod)
> library(tweedie)
> x <- 1:100
> mutrue <- exp(-1+x/25)
> summary(mutrue)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3829  1.0306  2.7737  5.0287  7.4644 20.0855 
> y <- rtweedie(100, mu=mutrue, phi=1, power=1.3)
> summary(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.0000  0.8482  2.9249  4.7164  6.1522 24.3897 
> sum(y==0)
[1] 12

Dữ liệu chứa 12 số không.

Bây giờ phù hợp với một Tweedie glm:

> fit <- glm(y ~ x, family=tweedie(var.power=1.3, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.3, link.power = 0))

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-2.71253  -0.94685  -0.07556   0.69089   1.84013  

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.816784   0.168764   -4.84 4.84e-06 ***
x            0.036748   0.002275   16.15  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for Tweedie family taken to be 0.8578628)

    Null deviance: 363.26  on 99  degrees of freedom
Residual deviance: 103.70  on 98  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

xϕ

x

> Phi <- 0.85786
> Mu <- fitted(fit)
> Power <- 1.3
> Prob.Zero <- exp(-Mu^(2-Power) / Phi / (2-Power))
> Prob.Zero[1:5]
        1         2         3         4         5 
0.3811336 0.3716732 0.3622103 0.3527512 0.3433024 
> Prob.Zero[96:100]
          96           97           98           99          100 
1.498569e-05 1.121936e-05 8.336499e-06 6.146648e-06 4.496188e-06 

Vì vậy, tỷ lệ số 0 dự đoán thay đổi từ 38,1% tại các giá trị trung bình nhỏ nhất xuống 4,5e-6 ở các giá trị trung bình lớn nhất.

Công thức xác suất bằng 0 chính xác có thể được tìm thấy trong Mật độ gia đình Tweedie: 2001 Phương pháp đánh giá hoặc đánh giá sê-ri Dunn & Smyth (2005) về mật độ mô hình phân tán theo cấp số nhân của Tweedie .


cảm ơn, có ích Bất kỳ đề xuất về cách tính khoảng tin cậy cho các xác suất bằng 0 chính xác này? Nó sẽ có ý nghĩa gì cả? Tôi cũng bối rối về cách xác định "vùng khả năng 95%" từ bài báo năm 2005 của bạn, có lẽ là điều mà tôi không thể tìm thấy. Tôi sẽ đánh giá rất cao một tài liệu tham khảo
irintch3

8

Câu trả lời này đã được hợp nhất từ ​​một chủ đề khác hỏi về dự đoán mô hình hồi quy không lạm phát, nhưng nó cũng áp dụng cho mô hình Tweedie GLM.

ff

fzeroinfl(y)=πI{0}(y)+(1π)f(y)

Ifzeroinfl(y)

μi=π0+(1π)g1(xiβ)

g1

YXYXYXE(Y|X)

Thí dụ


Tim, đây thực sự là một câu trả lời tuyệt vời và tôi xin lỗi vì thời gian của sự hợp nhất. Nếu bạn muốn bất cứ điều gì về câu hỏi được sửa đổi thêm để làm cho nó phù hợp hơn hoặc phù hợp hơn (kết hợp một số câu hỏi mà bạn đã trả lời), vui lòng tiếp tục, hoặc tôi sẽ vui lòng làm điều đó cho bạn.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.