Vấn đề này có một cảm giác khám phá cho nó. John Tukey mô tả nhiều quy trình để khám phá tính không đồng nhất trong Phân tích dữ liệu khám phá cổ điển của ông (Addison-Wesley 1977). Có lẽ hữu ích trực tiếp nhất là một biến thể của " âm mưu sơ đồ lang thang " của ông . Điều này cắt một biến (chẳng hạn như giá trị dự đoán) vào các thùng và sử dụng tóm tắt chữ m (khái quát của các ô vuông) để hiển thị vị trí, trải và hình dạng của biến khác cho mỗi thùng. Các thống kê m-letter được làm mịn hơn nữa để nhấn mạnh các mẫu tổng thể thay vì độ lệch cơ hội.
Một phiên bản nhanh có thể được nấu chín bằng cách khai thác các boxplot
thủ tục trong R
. Chúng tôi minh họa với dữ liệu không đồng nhất mạnh mẽ mô phỏng:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
Chúng ta hãy lấy các giá trị dự đoán và phần dư từ hồi quy OLS:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
Ở đây, sau đó, là âm mưu sơ đồ lang thang sử dụng các thùng có số lượng bằng nhau cho các giá trị dự đoán. Tôi sử dụng lowess
cho một mịn nhanh chóng và bẩn.
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
Các đường cong màu xanh làm mịn các dải phân cách. Xu hướng ngang của nó cho thấy hồi quy nói chung là phù hợp. Các đường cong khác làm mịn các đầu hộp (tứ phân vị) và hàng rào (thường là các giá trị cực trị). Sự hội tụ mạnh mẽ của chúng và sự phân tách tiếp theo làm chứng cho tính không đồng nhất - và giúp chúng ta mô tả và định lượng nó.
(Lưu ý thang đo phi tuyến trên trục hoành, phản ánh sự phân bố của các giá trị dự đoán. Với một chút công việc, trục này có thể được tuyến tính hóa, đôi khi rất hữu ích.)