Tham số phân tán trong đầu ra GLM


11

Tôi đã chạy một glm trong R, và gần dưới cùng của summary()đầu ra, nó nói

(Dispersion parameter for gaussian family taken to be 28.35031)

Tôi đã thực hiện một số thao tác trên Google và biết rằng tham số phân tán được sử dụng để phù hợp với các lỗi tiêu chuẩn. Tôi hy vọng ai đó có thể cung cấp thêm chi tiết về tham số phân tán là gì và làm thế nào để giải thích nó?

Câu trả lời:


9

Một cách để khám phá điều này là thử lắp cùng một mô hình bằng các công cụ khác nhau, đây là một ví dụ:

> fit1 <- lm( Sepal.Length ~ ., data=iris )
> fit2 <- glm( Sepal.Length ~ ., data=iris )
> summary(fit1)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared: 0.8673,     Adjusted R-squared: 0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16 

> summary(fit2)

Call:
glm(formula = Sepal.Length ~ ., data = iris)

Deviance Residuals: 
     Min        1Q    Median        3Q       Max  
-0.79424  -0.21874   0.00899   0.20255   0.73103  

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        2.17127    0.27979   7.760 1.43e-12 ***
Sepal.Width        0.49589    0.08607   5.761 4.87e-08 ***
Petal.Length       0.82924    0.06853  12.101  < 2e-16 ***
Petal.Width       -0.31516    0.15120  -2.084  0.03889 *  
Speciesversicolor -0.72356    0.24017  -3.013  0.00306 ** 
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

(Dispersion parameter for gaussian family taken to be 0.09414226)

    Null deviance: 102.168  on 149  degrees of freedom
Residual deviance:  13.556  on 144  degrees of freedom
AIC: 79.116

Number of Fisher Scoring iterations: 2

> sqrt( 0.09414226 )
[1] 0.3068261

Vì vậy, bạn có thể thấy rằng lỗi tiêu chuẩn còn lại của mô hình tuyến tính chỉ là căn bậc hai của sự phân tán từ glm, nói cách khác, sự phân tán (đối với các mô hình Gaussian) giống như lỗi bình phương trung bình.


4

Hãy để chúng tôi suy đoán tình huống đơn giản trong đó không có thông tin đồng biến trong dữ liệu của bạn. Giả sử, bạn chỉ có các quan sát .Y1,Y2,,YnR

Nếu bạn đang sử dụng phân phối bình thường để mô hình hóa dữ liệu của mình, có lẽ bạn sẽ viết rằng

YiN(μ,σ2) ,

và sau đó thử ước tính và , có thể thông qua ước tính khả năng tối đa.σμσ

Nhưng giả sử dữ liệu của bạn là dữ liệu đếm và do đó thường không được phân phối. Nó thậm chí không liên tục trong trường hợp này, vì vậy bạn có thể sử dụng phân phối Poisson thay thế:

YiPoisson(λ) .

Tuy nhiên, bạn chỉ có một tham số ở đây! Tham số duy nhất xác định cả giá trị trung bình và phương sai bởi và . Điều này cũng xảy ra khi bạn sử dụng Bernoulli hoặc phân phối nhị thức. Nhưng bạn có thể có phương sai lớn hơn hoặc nhỏ hơn trong dữ liệu của mình, có thể do các quan sát không thực sự iid hoặc phân phối bạn chọn không đủ thực tế.E [ Y i ] = λ V một r [ Y i ] = λλE[Yi]=λVar[Yi]=λ

Vì vậy, mọi người thêm tham số phân tán để có được mức độ tự do bổ sung trong mô hình trung bình và phương sai đồng thời. Tôi đoán bất kỳ sách giáo khoa nào trên GLM sẽ cung cấp cho bạn lời giải thích chi tiết và toán học hơn về nó là gì, nhưng động lực, tôi tin rằng, là khá đơn giản như thế này.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.