Có phải giả định về các lỗi Bình thường ngụ ý rằng Y cũng là Bình thường?


12

Trừ khi tôi nhầm, trong một mô hình tuyến tính, sự phân phối của phản hồi được giả sử là có một thành phần hệ thống và một thành phần ngẫu nhiên. Thuật ngữ lỗi bắt các thành phần ngẫu nhiên. Do đó, nếu chúng tôi cho rằng thuật ngữ lỗi được phân phối Thông thường, không có nghĩa là phản hồi cũng được phân phối Thông thường? Tôi nghĩ là có, nhưng sau đó những phát biểu như câu dưới đây có vẻ khá khó hiểu:

Và bạn có thể thấy rõ rằng giả định duy nhất về "tính quy tắc" trong mô hình này là phần dư (hoặc "lỗi" ) nên được phân phối bình thường. Không có giả định về phân phối của yếu tố dự đoán x i hoặc biến trả lời y iϵixiyi .

Nguồn: Dự đoán, phản hồi và phần dư: Điều gì thực sự cần được phân phối bình thường?


7
Nếu các không phải là ngẫu nhiên, tính quy tắc của ϵ hàm ý tính quy tắc của biến phụ thuộc. Đối với các biến độc lập ngẫu nhiên, điều này sẽ không giữ được nói chung, sau đó nó phụ thuộc vào sự phân phối của các biến độc lập. xϵ

Câu trả lời:


19

Mô hình OLS giữa các ý kiến với ε ~ N ( 0 , σ 2 Tôi n ) cho một cố định X R n × p .Y=Xβ+εεN(0,σ2In) XRn×p

Điều này thực sự có nghĩa là , mặc dù điều này là kết quả của giả định của chúng tôi về sự phân bố của ε , chứ không phải là thực sự là giả định. Cũng nên nhớ rằng tôi đang nói về sự phân bố có điều kiện của Y , chứ không phải sự phân bố biên của Y . Tôi đang tập trung vào phân phối có điều kiện bởi vì tôi nghĩ đó là những gì bạn thực sự hỏi về.Y|{X,β,σ2}N(Xβ,σ2In)εYY

Tôi nghĩ phần khó hiểu là điều này không có nghĩa là biểu đồ của sẽ trông bình thường. Chúng ta đang nói rằng toàn bộ vectơ Y là một lần rút ra từ một phân phối chuẩn nhiều biến trong đó mỗi phần tử có một giá trị trung bình khác nhau E ( Y i | X i ) = X T iYY . Đây không giống như một mẫu bình thường của iid. Các lỗi ε thực sự là một mẫu iid nên biểu đồ của chúng sẽ trông bình thường (và đó là lý do tại sao chúng tôi thực hiện một biểu đồ QQ của phần dư, không phải là phản hồi).E(Yi|Xi)=XiTβε

Dưới đây là một ví dụ: giả sử chúng ta đang đo chiều cao cho một mẫu học sinh lớp 6 và học sinh lớp 12. Mô hình của chúng tôi là H i = β 0 + β 1 Tôi ( 12 học sinh lớp ) + ε i với ε i ~ iid N ( 0 , σ 2 ) . Nếu chúng ta nhìn vào một biểu đồ của H i chúng tôi có lẽ sẽ thấy một phân phối hai mốt, với một đỉnh cao cho học sinh lớp 6 và một đỉnh cao cho học sinh lớp 12, nhưng điều đó không đại diện cho một sự vi phạm các giả định của chúng tôi.HHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi


σ2Tôin

n×nσ2

n×n

11

Do đó, nếu chúng tôi cho rằng thuật ngữ lỗi được phân phối Thông thường, không có nghĩa là phản hồi cũng được phân phối Thông thường?

Thậm chí không từ xa. Cách tôi nhớ điều này là phần dư là điều kiện bình thường trên phần xác định của mô hình . Đây là một minh chứng về những gì trông giống như trong thực tế.

Tôi bắt đầu bằng cách tạo ngẫu nhiên một số dữ liệu. Sau đó, tôi xác định một kết quả là một hàm tuyến tính của các yếu tố dự đoán và ước tính một mô hình.

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

Chúng ta hãy xem những phần còn lại trông như thế nào. Tôi nghi ngờ rằng chúng nên được phân phối bình thường, vì kết quả yđã có tiếng ồn bình thường được thêm vào nó. Và thực sự đó là trường hợp.

nhập mô tả hình ảnh ở đây

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

Tuy nhiên, kiểm tra phân phối của y, chúng ta có thể thấy rằng nó chắc chắn không bình thường! Tôi đã phủ lên hàm mật độ với giá trị trung bình và phương sai tương tự y, nhưng rõ ràng nó rất phù hợp!

Mật độ của y

Lý do điều này xảy ra trong trường hợp này là dữ liệu đầu vào thậm chí không bình thường từ xa. Không có gì về mô hình hồi quy này đòi hỏi tính quy phạm ngoại trừ trong phần dư - không phải trong biến độc lập và không phải trong biến phụ thuộc.

Từ chối x


8

Không, nó không. Ví dụ: giả sử chúng ta có một mô hình dự đoán cân nặng của các vận động viên Olympic. Mặc dù trọng lượng có thể được phân phối bình thường giữa các vận động viên trong mỗi môn thể thao, nhưng nó sẽ không nằm trong số tất cả các vận động viên - nó thậm chí có thể không khác thường.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.