Hồi quy tuyến tính đơn giản có lỗi Gaussian là một thuộc tính rất hay không khái quát cho các mô hình tuyến tính tổng quát.
Trong các mô hình tuyến tính tổng quát, đáp ứng theo một số phân phối nhất định cho giá trị trung bình . Hồi quy tuyến tính theo mô hình này; nếu chúng ta có
yi=β0+β1xi+ϵi
với ϵi∼N(0,σ)
sau đó chúng ta cũng có
yi∼N(β0+β1xi,σ)
Được rồi, do đó, đáp ứng tuân theo phân phối đã cho cho các mô hình tuyến tính tổng quát, nhưng đối với hồi quy tuyến tính, chúng ta cũng có các phần dư tuân theo phân phối Gaussian. Tại sao nó nhấn mạnh rằng phần dư là bình thường khi đó không phải là quy tắc chung? Vâng, bởi vì đó là quy tắc hữu ích hơn nhiều. Điều tốt đẹp về suy nghĩ về tính bình thường của phần dư là điều này dễ kiểm tra hơn nhiều. Nếu chúng ta trừ đi các phương tiện ước tính, tất cả các phần dư sẽ có cùng phương sai và gần như cùng một giá trị trung bình (0) và sẽ được phân phối một cách bình thường (lưu ý: Tôi nói "đại khái" bởi vì nếu chúng ta không có ước tính hoàn hảo về thông số hồi quy, trong đó tất nhiên chúng tôi không, phương sai của các ước tính về ϵisẽ có các phương sai khác nhau dựa trên các phạm vi của . Nhưng hy vọng có đủ độ chính xác trong các ước tính rằng điều này là không thể biết được!).x
Mặt khác, nhìn vào không điều chỉnh 's, chúng ta không thể thực sự biết nếu họ là bình thường nếu tất cả họ đều có phương tiện khác nhau. Ví dụ, hãy xem xét mô hình sau:yi
yi=0+2×xi+ϵi
với và x i ~ Bernoulli ( p = 0,5 )ϵi∼N(0,0.2)xi∼Bernoulli(p=0.5)
Sau đó, yi sẽ rất lưỡng tính, nhưng không vi phạm các giả định của hồi quy tuyến tính! Mặt khác, phần dư sẽ tuân theo phân phối gần như bình thường.
Đây là một số R
mã để minh họa.
x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')