Tại sao hồi quy tuyến tính có giả định trên mô hình tuyến tính dư nhưng tổng quát có giả định về đáp ứng?


14

Tại sao hồi quy tuyến tính và Mô hình tổng quát có các giả định không nhất quán?

  • Trong hồi quy tuyến tính, chúng tôi giả sử phần dư có dạng Gaussian
  • Trong hồi quy khác (hồi quy logistic, hồi quy độc), chúng tôi giả sử đáp ứng có dạng phân phối (nhị thức, phân tích, v.v.).

Tại sao đôi khi giả định dư và thời gian khác giả định trên phản ứng? Là bởi vì chúng tôi muốn lấy được các thuộc tính khác nhau?


EDIT: Tôi nghĩ rằng mark999 cho thấy hai hình thức là bằng nhau. Tuy nhiên, tôi có thêm một nghi ngờ về iid:

Câu hỏi khác của tôi, Có giả định nào về hồi quy logistic không? cho thấy mô hình tuyến tính tổng quát không có giả định iid (độc lập nhưng không giống nhau)

Có phải đó là sự thật rằng cho hồi quy tuyến tính, nếu chúng ta đặt ra giả định trên còn sót lại , chúng ta sẽ có iid, nhưng nếu chúng ta đặt ra giả định về phản ứng , chúng ta sẽ có mẫu độc lập nhưng không giống hệt nhau (Gaussian khác nhau với nhau μ )?

Câu trả lời:


12

Hồi quy tuyến tính đơn giản có lỗi Gaussian là một thuộc tính rất hay không khái quát cho các mô hình tuyến tính tổng quát.

Trong các mô hình tuyến tính tổng quát, đáp ứng theo một số phân phối nhất định cho giá trị trung bình . Hồi quy tuyến tính theo mô hình này; nếu chúng ta có

yi=β0+β1xi+ϵi

với ϵiN(0,σ)

sau đó chúng ta cũng có

yiN(β0+β1xi,σ)

Được rồi, do đó, đáp ứng tuân theo phân phối đã cho cho các mô hình tuyến tính tổng quát, nhưng đối với hồi quy tuyến tính, chúng ta cũng có các phần dư tuân theo phân phối Gaussian. Tại sao nó nhấn mạnh rằng phần dư là bình thường khi đó không phải là quy tắc chung? Vâng, bởi vì đó là quy tắc hữu ích hơn nhiều. Điều tốt đẹp về suy nghĩ về tính bình thường của phần dư là điều này dễ kiểm tra hơn nhiều. Nếu chúng ta trừ đi các phương tiện ước tính, tất cả các phần dư sẽ có cùng phương sai và gần như cùng một giá trị trung bình (0) và sẽ được phân phối một cách bình thường (lưu ý: Tôi nói "đại khái" bởi vì nếu chúng ta không có ước tính hoàn hảo về thông số hồi quy, trong đó tất nhiên chúng tôi không, phương sai của các ước tính về ϵisẽ có các phương sai khác nhau dựa trên các phạm vi của . Nhưng hy vọng có đủ độ chính xác trong các ước tính rằng điều này là không thể biết được!).x

Mặt khác, nhìn vào không điều chỉnh 's, chúng ta không thể thực sự biết nếu họ là bình thường nếu tất cả họ đều có phương tiện khác nhau. Ví dụ, hãy xem xét mô hình sau:yi

yi=0+2×xi+ϵi

với x i ~ Bernoulli ( p = 0,5 )ϵiN(0,0.2)xiBernoulli(p=0.5)

Sau đó, yi sẽ rất lưỡng tính, nhưng không vi phạm các giả định của hồi quy tuyến tính! Mặt khác, phần dư sẽ tuân theo phân phối gần như bình thường.

Đây là một số Rmã để minh họa.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

biểu đồ


yi=1+2×xi+ϵi

3
@ hxd1011: có, đây là sự khác biệt giữa phân phối biên (rõ ràng không bình thường) và phân phối có điều kiện cho x (chúng tôi biết đó là bình thường vì chúng tôi đã mô phỏng nó!). Không nghĩ về sự khác biệt giữa phân phối có điều kiện và cận biên là một sai lầm cực kỳ phổ biến.
Vách đá AB

14

i=1,,n

Yi=β0+β1Xi1++βkXik+ϵi,
with the errors ϵi being normally distributed with mean 0 and variance σ2, that's the same as assuming that conditional on Xi1,,Xik, the response Yi is normally distributed with mean β0+β1Xi1++βkXik and variance σ2.

This is because having conditioned on Xi1,,Xik, we treat β0+β1Xi1++βkXik as being constant.

The usual multiple linear regression model with normal errors is a generalised linear model with normal response and identity link.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.