Đưa ra một GLM bằng Tweedie, làm cách nào để tìm các hệ số?


7

Để cho Y là một biến ngẫu nhiên tuân theo phân phối Tweedie cho tham số α=1.1. Hãy để chức năng liên kết là nhật ký tự nhiên. Giả sử rằng chúng ta có một cơ sở dữ liệu về các số của mẫu

(y1,x1,1,x1,2,...,x1,m)

(y2,x2,1,x2,2,...,x2,m)

...

(yn,xn,1,xn,2,...,xn,m).

Các biến là sự pha trộn của các biến phân loại và biến liên tục. Bởi vì đây là GLM, chúng tôi biết rằng

E[Y]=eXβ. Vì vậy, đây là câu hỏi của tôi: đưa ra cơ sở dữ liệu về các con số và sử dụng thực tế rằng đây là phân phối Tweedie với một tham số đã cho, tôi sử dụng thuật toán nào để chọn tốt nhấtβ? Có một chức năng lỗi mà tôi cần phải giảm thiểu, hoặc tôi ước tính các tham số về khả năng tối đa?


1
Khả năng tối đa là chính xác. Xem en.wikipedia.org/wiki/ .
amip

1
Bạn có thể sử dụng GLM để điều chỉnh nó bằng ML; bạn chỉ cần cung cấp đúng chức năng cho GLM. Chúng có sẵn trong statmod(và một số chức năng hữu ích bổ sung có trong tweediegói trong R, chẳng hạn như AICtweedie). Mặc dù bạn có thể quản lý mà không cần những thứ này nếu bạn biết cách lái glm đủ tốt, tôi khuyên bạn nên sử dụng các gói.
Glen_b -Reinstate Monica

Câu trả lời:


11

Bạn có quen thuộc với các mô hình tuyến tính tổng quát trong R? Nếu vậy, bạn có thể phù hợp với Tweedie glms giống như bất kỳ glms nào khác. Định nghĩa gia đình glm cần thiết để thực hiện điều này được cung cấp bởi gói statmod R từ CRAN.

Tweedie glms cho rằng hàm phương sai là hàm lũy thừa:

var(y)=V(μ)ϕ=μαϕ
Trường hợp đặc biệt bao gồm glms bình thường (α=0), Poisson α=1), gamma glms (α=2) và glms-Gaussian nghịch đảo (α=3).

Dưới đây là một ví dụ về mã R:

> library(statmod)
> y <- c(4.0,5.9,3.9,13.2,10.0,9.0)
> x <- 1:6
> fit <- glm(y~x, family=tweedie(var.power=1.1, link.power=0))
> summary(fit)

Call:
glm(formula = y ~ x, family = tweedie(var.power = 1.1, link.power = 0))

Deviance Residuals: 
      1        2        3        4        5        6  
-0.2966   0.1183  -1.0742   1.4985   0.1205  -0.6716  

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   1.3625     0.4336   3.143   0.0348 *
x             0.1794     0.1008   1.779   0.1498  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for Tweedie family taken to be 1.056557)

    Null deviance: 7.3459  on 5  degrees of freedom
Residual deviance: 3.9670  on 4  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

Gói Tweedie cho phép bạn lắp glm với bất kỳ chức năng nguồn và bất kỳ liên kết nguồn nào. Trong cuộc gọi gia đình glm, var.power làα tham số sao cho var.power = 1.1 chỉ định α=1.1. Var.power đề cập đến số mũ của hàm phương sai glm, do đó var.power = 0 chỉ định một họ bình thường, var.power = 1 có nghĩa là họ Poisson, var.power = 2 có nghĩa là họ gamma, var.power = 3 có nghĩa là nghịch đảo Gia đình Gaussian và như vậy. Các giá trị từ 0 đến 1 không được phép nhưng hầu như mọi thứ khác được cho phép.

link.power = 0 chỉ định một liên kết nhật ký. Liên kết được chỉ định theo các quyền hạn chuyển đổi Box-Cox, vì vậy link.power = 1 là liên kết nhận dạng và link.power = 0 có nghĩa là nhật ký.

Mô hình trên giả định rằng yiTweedieα(μi,ϕ) Ở đâu

logμi=β0+β1xi
var(yi)=μi1.1ϕ

Các hệ số hồi quy βjđã được ước tính bởi khả năng tối đa. Tham số phân tánϕ đã được ước tính bằng cách sử dụng tổng số dư của bình phương - đây được gọi là công cụ ước tính Pearson.

Bất kể điều gì α hoặc liên kết bạn sử dụng, bất kỳ hàm hạ lưu nào được cung cấp trong R cho glms sẽ hoạt động trên đối tượng mô hình được trang bị glm được tạo bởi glm ().

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.