Tham số phân tán trong đầu ra GLM

11

Tôi đã chạy một glm trong R, và gần dưới cùng của summary()đầu ra, nó nói

(Dispersion parameter for gaussian family taken to be 28.35031)

Tôi đã thực hiện một số thao tác trên Google và biết rằng tham số phân tán được sử dụng để phù hợp với các lỗi tiêu chuẩn. Tôi hy vọng ai đó có thể cung cấp thêm chi tiết về tham số phân tán là gì và làm thế nào để giải thích nó?

r generalized-linear-model

— luciano
nguồn

9

Một cách để khám phá điều này là thử lắp cùng một mô hình bằng các công cụ khác nhau, đây là một ví dụ:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

Vì vậy, bạn có thể thấy rằng lỗi tiêu chuẩn còn lại của mô hình tuyến tính chỉ là căn bậc hai của sự phân tán từ glm, nói cách khác, sự phân tán (đối với các mô hình Gaussian) giống như lỗi bình phương trung bình.

— Greg tuyết
nguồn

4

Hãy để chúng tôi suy đoán tình huống đơn giản trong đó không có thông tin đồng biến trong dữ liệu của bạn. Giả sử, bạn chỉ có các quan sát . $Y_1, Y_2, \ldots, Y_n \in \mathbb{R}$

Nếu bạn đang sử dụng phân phối bình thường để mô hình hóa dữ liệu của mình, có lẽ bạn sẽ viết rằng

$Y_i \sim \mathcal{N}(\mu, \sigma^2)$ ,

và sau đó thử ước tính và , có thể thông qua ước tính khả năng tối đa. $\mu$ $\sigma$

Nhưng giả sử dữ liệu của bạn là dữ liệu đếm và do đó thường không được phân phối. Nó thậm chí không liên tục trong trường hợp này, vì vậy bạn có thể sử dụng phân phối Poisson thay thế:

$Y_i \sim Poisson(\lambda)$ .

Tuy nhiên, bạn chỉ có một tham số ở đây! Tham số duy nhất xác định cả giá trị trung bình và phương sai bởi và . Điều này cũng xảy ra khi bạn sử dụng Bernoulli hoặc phân phối nhị thức. Nhưng bạn có thể có phương sai lớn hơn hoặc nhỏ hơn trong dữ liệu của mình, có thể do các quan sát không thực sự iid hoặc phân phối bạn chọn không đủ thực tế. $\lambda$ $\mathbb{E}[Y_i] = \lambda$ $Var[Y_i] = \lambda$

Vì vậy, mọi người thêm tham số phân tán để có được mức độ tự do bổ sung trong mô hình trung bình và phương sai đồng thời. Tôi đoán bất kỳ sách giáo khoa nào trên GLM sẽ cung cấp cho bạn lời giải thích chi tiết và toán học hơn về nó là gì, nhưng động lực, tôi tin rằng, là khá đơn giản như thế này.

— d_ijk_stra
nguồn