Do đó, nếu chúng tôi cho rằng thuật ngữ lỗi được phân phối Thông thường, không có nghĩa là phản hồi cũng được phân phối Thông thường?
Thậm chí không từ xa. Cách tôi nhớ điều này là phần dư là điều kiện bình thường trên phần xác định của mô hình . Đây là một minh chứng về những gì trông giống như trong thực tế.
Tôi bắt đầu bằng cách tạo ngẫu nhiên một số dữ liệu. Sau đó, tôi xác định một kết quả là một hàm tuyến tính của các yếu tố dự đoán và ước tính một mô hình.
N <- 100
x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)
x <- c(x1,x2)
plot(density(x, from=0, to=1))
y <- 1+10*x+rnorm(2*N, sd=1)
model<-lm(y~x)
Chúng ta hãy xem những phần còn lại trông như thế nào. Tôi nghi ngờ rằng chúng nên được phân phối bình thường, vì kết quả y
đã có tiếng ồn bình thường được thêm vào nó. Và thực sự đó là trường hợp.
plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")
plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")
Tuy nhiên, kiểm tra phân phối của y, chúng ta có thể thấy rằng nó chắc chắn không bình thường! Tôi đã phủ lên hàm mật độ với giá trị trung bình và phương sai tương tự y
, nhưng rõ ràng nó rất phù hợp!
Lý do điều này xảy ra trong trường hợp này là dữ liệu đầu vào thậm chí không bình thường từ xa. Không có gì về mô hình hồi quy này đòi hỏi tính quy phạm ngoại trừ trong phần dư - không phải trong biến độc lập và không phải trong biến phụ thuộc.