Tất cả phụ thuộc vào cách bạn ước tính các tham số . Thông thường, các công cụ ước tính là tuyến tính, ngụ ý phần dư là các hàm tuyến tính của dữ liệu. Khi các lỗi có phân phối Bình thường, thì dữ liệu cũng vậy, do đó, phần dư (tất nhiên là lập chỉ mục các trường hợp dữ liệu).u i ibạnTôibạn^TôiTôi
Có thể hiểu được (và có thể hợp lý) rằng khi phần dư dường như có phân phối xấp xỉ (không biến đổi), thì điều này phát sinh từ các phân phối lỗi không bình thường . Tuy nhiên, với các kỹ thuật ước lượng bình phương (hoặc khả năng tối đa) tối thiểu, phép biến đổi tuyến tính để tính toán phần dư là "nhẹ" theo nghĩa là hàm đặc trưng của phân phối (đa biến) của phần dư có thể khác nhiều so với cf của các lỗi .
Trong thực tế, chúng ta không bao giờ cần rằng các lỗi phải được phân phối chính xác Thông thường, vì vậy đây là một vấn đề không quan trọng. Nhập khẩu lớn hơn nhiều cho các lỗi là (1) tất cả các kỳ vọng của họ phải gần bằng không; (2) mối tương quan của chúng nên thấp; và (3) cần có một số lượng nhỏ các giá trị ngoại lai có thể chấp nhận được. Để kiểm tra những điều này, chúng tôi áp dụng các thử nghiệm độ phù hợp khác nhau, thử nghiệm tương quan và thử nghiệm các ngoại lệ (tương ứng) cho các phần dư. Mô hình hồi quy cẩn thận luôn bao gồm chạy các thử nghiệm như vậy (bao gồm các hình ảnh đồ họa khác nhau của phần dư, chẳng hạn như được cung cấp tự động theo plot
phương pháp R khi áp dụng cho một lm
lớp).
Một cách khác để có được câu hỏi này là bằng cách mô phỏng từ mô hình giả thuyết. Đây là một số mã (tối thiểu, một lần) R
để thực hiện công việc:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
Đối với trường hợp n = 32, biểu đồ xác suất chồng lấp này gồm 99 bộ phần dư cho thấy chúng có xu hướng gần với phân phối lỗi (là tiêu chuẩn thông thường), vì chúng đồng nhất với dòng tham chiếu :y= x
Đối với trường hợp n = 6, độ dốc trung bình nhỏ hơn trong các ô xác suất gợi ý rằng phần dư có phương sai nhỏ hơn một chút so với sai số, nhưng nhìn chung chúng có xu hướng được phân phối bình thường, vì hầu hết chúng đều theo dõi đường tham chiếu đủ tốt (được đưa ra giá trị nhỏ của ):n