Các khoảng tin cậy cho các hệ số hồi quy tuyến tính nên dựa trên phân phối chuẩn hay


18

Chúng ta hãy có một số mô hình tuyến tính, ví dụ chỉ đơn giản là ANOVA:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

Kết quả như sau:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

Bây giờ tôi thử hai phương pháp khác nhau để ước tính khoảng tin cậy của các tham số này

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Câu hỏi:

  1. Sự phân bố của các hệ số hồi quy tuyến tính ước tính là gì? Bình thường hay ?t
  2. Tại sao cả hai phương pháp mang lại kết quả khác nhau? Giả sử phân phối bình thường và SE chính xác, tôi mong muốn cả hai phương pháp đều có cùng kết quả.

Cảm ơn rât nhiều!

dữ liệu ~ 0 + thực tế

EDIT sau khi trả lời :

Câu trả lời là chính xác, điều này sẽ cho kết quả chính xác như confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])

Câu trả lời:


19

(1) Khi các lỗi được phân phối thông thường và phương sai của họ là không biết đến, sau đó β - β 0t-distribution dưới giả thuyết rằngβ0là hệ số hồi quy hiện thực. Giá trị mặc định tronglà để thử nghiệmβ0=0, do đót-statistics báo cáo có những chỉ β

β^β0se(β^)
tβ0Rβ0=0t
β^se(β^)

Lưu ý rằng, theo một số điều kiện đều đặn, số liệu thống kê trên được luôn tiệm cận thường được phân phối, bất kể các lỗi là bình thường hay phương sai lỗi được biết đến.

(2) Lý do bạn nhận được kết quả khác nhau là phần trăm phân phối bình thường khác với phần trăm củaphân phối t . Do đó, hệ số nhân bạn đang sử dụng trước lỗi tiêu chuẩn là khác nhau, do đó, lần lượt đưa ra các khoảng tin cậy khác nhau.t

Cụ thể, nhớ lại rằng khoảng tin cậy sử dụng phân phối bình thường là

β^±zα/2se(β^)

Trong đó là lượng tử α / 2 của phân phối chuẩn. Trong trường hợp tiêu chuẩn của một 95 % khoảng tin cậy, α = 0,05z α / 21,96 . Khoảng tin cậy dựa trên phân phối tzα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

tα/2,nptnpnpntα/2,npzα/2 gần bằng nhau.

Dưới đây là một biểu đồ của các bội số cho kích thước mẫu dao động từ 5 đến 300 (Tôi đã giả sử p = 1 cho âm mưu này, nhưng điều đó không thay đổi gì về mặt chất lượng). Hệ số t lớn hơn, nhưng, như bạn có thể thấy bên dưới, chúng hội tụ đến hệ số nhân z (đường liền nét màu đen) khi kích thước mẫu tăng. t5300p=1tz

enter image description here


Vâng!! Một tác phẩm hay !! (+1)
gui11aume

Macro, cảm ơn bạn đã trả lời. Nhưng: bạn nói về phân phối số liệu thống kê T, trong khi tôi hỏi về phân phối hệ số hồi quy. Hiểu biết của tôi là hệ số hồi quy là một phân phối được đặc trưng bởi giá trị trung bình của nó (ước tính hệ số) và sai số chuẩn của nó. Tôi hỏi về phân phối này, không phải phân phối thống kê thử nghiệm. Tôi có thể bỏ lỡ điều gì đó vì vậy hãy cố gắng giải thích theo cách rõ ràng hơn :) Cảm ơn
Tò mò

2
β^β0se(β^)
tβ^tβ0se(β^)β^

Bạn hoàn toàn chính xác! Điều này sẽ cho kết quả chính xác như confint(m1), ngay cả đối với các cỡ mẫu nhỏ! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
Tò mò

β^β^β0β0t
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.