Khẳng định phân phối phần dư trong hồi quy tuyến tính


17

Giả sử chúng ta đã chạy hồi quy tuyến tính đơn giản , đã lưu phần dư và vẽ biểu đồ phân phối phần dư. Nếu chúng tôi nhận được một cái gì đó trông giống như một bản phân phối quen thuộc, chúng tôi có thể cho rằng thuật ngữ lỗi của chúng tôi có bản phân phối này không? Nói, nếu chúng tôi phát hiện ra rằng phần dư giống với phân phối bình thường, có nghĩa là giả định tính quy phạm của thuật ngữ lỗi trong dân số? Tôi nghĩ rằng nó là hợp lý, nhưng làm thế nào nó có thể được biện minh?^ u iy=β0+β1x+uui^


1
Cá nhân tôi thấy khá khó khăn để đánh giá tính chuẩn từ biểu đồ (hoặc biểu đồ mật độ hạt nhân). Tôi sẽ không bao giờ dựa vào chúng như một bằng chứng "tối thượng". Cốt truyện QQ mạnh hơn nhiều cho mục đích này.

Câu trả lời:


18

Tất cả phụ thuộc vào cách bạn ước tính các tham số . Thông thường, các công cụ ước tính là tuyến tính, ngụ ý phần dư là các hàm tuyến tính của dữ liệu. Khi các lỗi có phân phối Bình thường, thì dữ liệu cũng vậy, do đó, phần dư (tất nhiên là lập chỉ mục các trường hợp dữ liệu).u i iuiu^ii

Có thể hiểu được (và có thể hợp lý) rằng khi phần dư dường như có phân phối xấp xỉ (không biến đổi), thì điều này phát sinh từ các phân phối lỗi không bình thường . Tuy nhiên, với các kỹ thuật ước lượng bình phương (hoặc khả năng tối đa) tối thiểu, phép biến đổi tuyến tính để tính toán phần dư là "nhẹ" theo nghĩa là hàm đặc trưng của phân phối (đa biến) của phần dư có thể khác nhiều so với cf của các lỗi .

Trong thực tế, chúng ta không bao giờ cần rằng các lỗi phải được phân phối chính xác Thông thường, vì vậy đây là một vấn đề không quan trọng. Nhập khẩu lớn hơn nhiều cho các lỗi là (1) tất cả các kỳ vọng của họ phải gần bằng không; (2) mối tương quan của chúng nên thấp; và (3) cần có một số lượng nhỏ các giá trị ngoại lai có thể chấp nhận được. Để kiểm tra những điều này, chúng tôi áp dụng các thử nghiệm độ phù hợp khác nhau, thử nghiệm tương quan và thử nghiệm các ngoại lệ (tương ứng) cho các phần dư. Mô hình hồi quy cẩn thận luôn bao gồm chạy các thử nghiệm như vậy (bao gồm các hình ảnh đồ họa khác nhau của phần dư, chẳng hạn như được cung cấp tự động theo plotphương pháp R khi áp dụng cho một lmlớp).

Một cách khác để có được câu hỏi này là bằng cách mô phỏng từ mô hình giả thuyết. Đây là một số mã (tối thiểu, một lần) Rđể thực hiện công việc:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

Đối với trường hợp n = 32, biểu đồ xác suất chồng lấp này gồm 99 bộ phần dư cho thấy chúng có xu hướng gần với phân phối lỗi (là tiêu chuẩn thông thường), vì chúng đồng nhất với dòng tham chiếu :y=x

Hình cho n = 32

Đối với trường hợp n = 6, độ dốc trung bình nhỏ hơn trong các ô xác suất gợi ý rằng phần dư có phương sai nhỏ hơn một chút so với sai số, nhưng nhìn chung chúng có xu hướng được phân phối bình thường, vì hầu hết chúng đều theo dõi đường tham chiếu đủ tốt (được đưa ra giá trị nhỏ của ):n

Hình cho n = 6


mọi thứ sẽ trở nên thú vị hơn nếu bạn thêm nói rexp(n)thay cho việc rnorm(n)tạo dữ liệu của bạn. Việc phân phối số dư sẽ giúp CÁCH gần với mức bình thường hơn bạn nghĩ.
StasK

Nhưng nếu chúng ta không cho rằng phần dư là bình thường, thì giá trị p của các hệ số ước tính kết quả được tính như thế nào? Thống kê kiểm tra là gì?
Kiến

5

Chúng ta hãy nhớ lại hình dạng của các bình phương nhỏ nhất: chúng ta có phương trình cơ bản được viết dưới dạng ma trận dưới dạng từ đó chúng ta rút ra phần dư trong đó là ma trận chiếu hoặc ma trận mũ . Chúng tôi thấy rằng mỗi dư riêng lẻ là một tổ hợp có khả năng có giá trị đường chéo lớn với phần dư của nó và một bó các giá trị đường chéo nhỏ có độ lớn với số dư của nó

yi=xiβ+ϵi
y=Xβ+ϵ
e=(IH)y
H=X(XX)1X
ei(1hii)ϵihijϵj,ji. (Lý do tôi nói rằng các giá trị ngoài đường chéo là nhỏ là vì và trên thực tế là đường chéo hoặc các mục ngoài đường chéo gần như theo thứ tự mặc dù đây không phải là một tuyên bố rất nghiêm ngặt dễ bị loại bỏ bởi các điểm đòn bẩy cao.) Vậy điều gì xảy ra nếu bạn tổng hợp nhiều mảnh iid có trọng lượng nhỏ? Phải, bạn có được phân phối bình thường theo định lý giới hạn trung tâm. Vì vậy, sự đóng góp của các thuật ngữ ngoài đường chéo cho phần dư sẽ tạo ra một thành phần cơ bản bình thường trong các mẫu lớn, làm giảm tính phi quy tắc mà phân phối ban đầu của các lỗi có thể có. Tất nhiên đúng là phần chính của còn lạiO(1/n)εiđi(1-hii)εijihij2+hii2=hiiO(1/n) ϵieivẫn xuất phát từ lỗi riêng, , nhưng sự tương tác của tất cả các thuật ngữ này có thể tạo ra các bản phân phối gần với bình thường hơn so với phân phối lỗi ban đầu.(1hii)ϵi

1

Nếu chúng tôi nhận được một cái gì đó trông giống như một bản phân phối quen thuộc, chúng tôi có thể cho rằng thuật ngữ lỗi của chúng tôi có bản phân phối này không?

Tôi sẽ lập luận rằng bạn không thể, vì mô hình bạn vừa phù hợp là không hợp lệ nếu giả định quy tắc về các lỗi không giữ được. (theo nghĩa là hình dạng của phân phối rõ ràng là không bình thường như Cauchy, v.v.)

Cách tiếp cận thông thường thay vì giả sử lỗi phân phối Po Po, là thực hiện một số dạng chuyển đổi dữ liệu như log y hoặc 1 / y để bình thường hóa phần dư. (cũng là mô hình thực sự có thể không phải là tuyến tính, điều này sẽ làm cho phần dư được vẽ có vẻ phân bố kỳ lạ mặc dù trên thực tế chúng là bình thường)

Nói, nếu chúng tôi phát hiện ra rằng phần dư giống với phân phối bình thường, có nghĩa là giả định tính quy phạm của thuật ngữ lỗi trong dân số?

Bạn đã giả định tính quy tắc của các lỗi khi bạn đã thực hiện hồi quy OLS. Việc bạn có phải cung cấp các đối số cho khiếu nại đó hay không, tùy thuộc vào loại và mức độ công việc của bạn. (thường hữu ích khi xem xét thực tiễn được chấp nhận trong lĩnh vực này là gì)

Bây giờ, nếu phần dư thực tế dường như được phân phối bình thường, bạn có thể tự nuôi mình ở phía sau, vì bạn có thể sử dụng nó như một bằng chứng thực nghiệm về các giả định trước đây của mình. :)


0

Vâng, nó là hợp lý. Phần dư là các lỗi. Bạn cũng có thể nhìn vào một âm mưu QQ bình thường.


u^iu

7
yixiβ^yixiβ

xX

1
@Wayne, tôi tin rằng "nó" đề cập đến thủ tục "nếu chúng tôi phát hiện ra rằng phần dư giống với phân phối bình thường, ... để giả sử tính bình thường của các điều khoản lỗi trong dân số." Tôi nghĩ về cơ bản là bạn đúng, nhưng sự tinh tế là phần dư là một sản phẩm của cả mẫu phương pháp được sử dụng để ước tính các tham số. Tôi thấy đây là một câu hỏi chu đáo và thú vị.
whuber

@whuber Tôi sẽ quan tâm đến việc bạn tham gia vào quá trình sinh viên so với tiêu chuẩn so với dư.
Michelle
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.