Điều gì xảy ra nếu phần dư được phân phối bình thường, nhưng y thì không?


110

Tôi có một câu hỏi kỳ lạ. Giả sử rằng bạn có một mẫu nhỏ trong đó biến phụ thuộc mà bạn sẽ phân tích với mô hình tuyến tính đơn giản bị lệch nhiều. Do đó, bạn cho rằng không được phân phối bình thường, vì điều này sẽ dẫn đến phân phối bình thường . Nhưng khi bạn tính toán cốt truyện QQ-Bình thường, có bằng chứng, phần dư được phân phối bình thường. Do đó, bất cứ ai cũng có thể cho rằng thuật ngữ lỗi được phân phối bình thường, mặc dù thì không. Vậy có nghĩa là gì, khi thuật ngữ lỗi dường như được phân phối bình thường, nhưng thì không?y y yuyyy

Câu trả lời:


143

Điều hợp lý là phần dư trong bài toán hồi quy được phân phối bình thường, mặc dù biến trả lời là không. Hãy xem xét một vấn đề hồi quy đơn biến trong đó . sao cho mô hình hồi quy phù hợp và tiếp tục giả định rằng giá trị thực của . Trong trường hợp này, trong khi phần dư của mô hình hồi quy thực là bình thường, phân phối của phụ thuộc vào phân phối của , vì giá trị trung bình có điều kiện của là hàm của . Nếu tập dữ liệu có nhiều giá trị của gần bằng 0 và càng ngày càng ít giá trị của , thì phân phối củaβ = 1 y x y x x x y xyN(βx,σ2)β=1yxyxxxy sẽ bị lệch sang trái. Nếu các giá trị của được phân phối đối xứng, thì y sẽ được phân phối đối xứng, v.v. Đối với bài toán hồi quy, chúng tôi chỉ giả sử rằng đáp ứng là điều kiện bình thường dựa trên giá trị của x .xyx


9
(+1) Tôi không nghĩ rằng điều này có thể được lặp lại thường xuyên đủ! Xem thêm vấn đề tương tự được thảo luận ở đây .
Wolfgang

1
Tôi hiểu câu trả lời của bạn và nó có vẻ đúng. Ít nhất bạn đã kiếm được rất nhiều phiếu bầu tích cực :) Nhưng tôi không vui chút nào. Vì vậy, trong ví dụ của bạn các giả định bạn đã thực hiện là y ~ N ( 1 x , σ 2 ) . Nhưng khi tôi ước tính hồi quy, tôi ước tính E ( y | x ) . Do đó x nên được đưa ra tại thời điểm tôi ước tính giá trị trung bình. Từ đó, x nên là một giá trị và tôi không quan tâm đến việc nó được phân phối như thế nào trước khi nhận ra nó. Vậy y N ( v a lβ=1yN(1x,σ2)E(y|x)x là sự phân bố của y . Tôi không hiểu x ở đâuảnh hưởng đến. yN(value,σ2)yxy
MarkDollar

4
Tôi khá ngạc nhiên về số lượng phiếu bầu; o) Để có được dữ liệu được sử dụng để phù hợp với mô hình hồi quy, bạn đã lấy một mẫu từ một số phân phối chung , từ đó bạn muốn ước tính E ( y | x ) . Tuy nhiên, vì y là hàm (nhiễu) của x , nên việc phân phối các mẫu của y phải phụ thuộc vào phân phối mẫu của x , đối với mẫu cụ thể đó. Bạn có thể không quan tâm đến phân phối "thật" của x , nhưng phân phối mẫu của y phụ thuộc vào mẫu của x. p(y,x)E(y|x)yxyxx
Dikran Marsupial

2
Hãy xem xét một ví dụ về ước tính nhiệt độ ( ) là một hàm của mạng ( x ). Việc phân phối các giá trị y trong mẫu của chúng tôi sẽ phụ thuộc vào nơi chúng tôi chọn đặt các trạm thời tiết. Nếu chúng ta đặt tất cả chúng ở hai cực hoặc xích đạo, thì chúng ta sẽ có phân phối lưỡng kim. Nếu chúng ta đặt chúng trên một lưới có diện tích bằng nhau thông thường, chúng ta sẽ có được sự phân phối không đồng đều các giá trị y , mặc dù tính chất vật lý của khí hậu là giống nhau cho cả hai mẫu. Tất nhiên, điều này sẽ ảnh hưởng đến mô hình hồi quy được trang bị của bạn và nghiên cứu về loại điều đó được gọi là "sự thay đổi đồng biến". HTHyxyy
Dikran Marsupial

Tôi cũng nghi ngờ rằng có điều kiện dựa trên giả định ngầm định rằng dữ liệu được sử dụng là một mẫu iid từ phân phối chung hoạt động p ( y , x ) . E(y|x)p(y,x)
Dikran Marsupial

100

@DikranMarsupial hoàn toàn chính xác, tất nhiên, nhưng với tôi, thật tuyệt khi minh họa quan điểm của anh ấy, đặc biệt là vì mối quan tâm này dường như xuất hiện thường xuyên. Cụ thể, phần của mô hình hồi quy nên được phân phối bình thường cho các giá trị p là chính xác. Tuy nhiên, ngay cả khi phần dư được phân phối bình thường, điều đó không đảm bảo rằng sẽ (không phải là vấn đề ...); nó phụ thuộc vào sự phân bố của X . YX

Hãy lấy một ví dụ đơn giản (mà tôi đang tạo nên). Giả sử chúng tôi đang thử nghiệm một loại thuốc điều trị tăng huyết áp tâm thu đơn độc (nghĩa là chỉ số huyết áp cao nhất là quá cao). Chúng ta hãy quy định thêm rằng bp tâm thu thường được phân phối trong dân số bệnh nhân của chúng tôi, với giá trị trung bình là 160 & SD là 3, và với mỗi mg thuốc mà bệnh nhân dùng mỗi ngày, bp tâm thu giảm 1mmHg. Nói cách khác, giá trị thực sự của là 160, và beta 1 là -1, và đúng chức năng tạo dữ liệu là: B P s y s = 160 - 1 × hàng ngày liều thuốc + εβ0β1 Trong nghiên cứu giả tưởng của chúng tôi, 300 bệnh nhân được chỉ định ngẫu nhiên dùng 0mg (giả dược), 20mg hoặc 40mg thuốc mới này mỗi ngày. (Lưu ý rằng X không được phân phối bình thường.) Sau đó, sau một khoảng thời gian thích hợp để thuốc có hiệu lực, dữ liệu của chúng tôi có thể trông như thế này:

BPsys=1601×daily drug dosage+εwhere εN(0,9)
X

nhập mô tả hình ảnh ở đây

(. Tôi jittered liều lượng sao cho các điểm sẽ không chồng chéo lên nhau rất nhiều mà họ khó có thể phân biệt được) Bây giờ, hãy kiểm tra các bản phân phối của (ví dụ, đó là phân phối biên / gốc), và dư: Y

nhập mô tả hình ảnh ở đây

YY

YXp<.05β1

set.seed(123456789)                       # this make the simulation repeatable

b0 = 160;   b1 = -1;   b1_null = 0        # these are the true beta values
x  = rep(c(0, 20, 40), each=100)          # the (non-normal) drug dosages patients get

estimated.b1s  = vector(length=10000)     # these will store the simulation's results
estimated.b1ns = vector(length=10000)
null.p.values  = vector(length=10000)

for(i in 1:10000){
  residuals = rnorm(300, mean=0, sd=3)
  y.works = b0 + b1*x      + residuals
  y.null  = b0 + b1_null*x + residuals    # everything is identical except b1

  model.works = lm(y.works~x)
  model.null  = lm(y.null~x)
  estimated.b1s[i]  = coef(model.works)[2]
  estimated.b1ns[i] = coef(model.null)[2]
  null.p.values[i]  = summary(model.null)$coefficients[2,4]
}
mean(estimated.b1s)       # the sampling distributions are centered on the true values
[1] -1.000084                  
mean(estimated.b1ns)
[1] -8.43504e-05               
mean(null.p.values<.05)   # when the null is true, p<.05 5% of the time
[1] 0.0532                   

nhập mô tả hình ảnh ở đây

Những kết quả này cho thấy mọi thứ hoạt động tốt.

X YX


1
Vì vậy, giả định của phần dư được phân phối bình thường chỉ cho giá trị p là chính xác? Tại sao giá trị p có thể sai nếu phần dư không bình thường?

3
@loganecolss, đó có thể là một câu hỏi mới tốt hơn. Ở bất kỳ giá nào, , nó phải làm w / xem các giá trị p có đúng không. Nếu phần dư của bạn đủ không bình thường và N của bạn thấp, thì phân phối lấy mẫu sẽ khác với cách nó được lý thuyết hóa. Vì giá trị p là bao nhiêu phân phối lấy mẫu vượt quá thống kê kiểm tra của bạn, nên giá trị p sẽ sai.
gung

0

XYX


3
Phân phối biên của phản hồi hoàn toàn không "vô nghĩa"; đó là phân phối biên của phản hồi (và thường nên gợi ý các mô hình khác với hồi quy đơn giản với các lỗi thông thường). Bạn đã đúng khi nhấn mạnh rằng các phân phối có điều kiện rất quan trọng khi chúng ta giải trí mô hình được đề cập, nhưng điều này không bổ sung hữu ích cho các câu trả lời xuất sắc hiện có.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.