Các biện pháp không đồng nhất dư


16

Liên kết wikipedia này liệt kê một số kỹ thuật để phát hiện sự không đồng nhất OLS dư. Tôi muốn tìm hiểu kỹ thuật thực hành nào hiệu quả hơn trong việc phát hiện các khu vực bị ảnh hưởng bởi tính không đồng nhất.

Ví dụ, ở đây, khu vực trung tâm trong âm mưu của OLS 'Residuals vs Fited' được xem là có phương sai cao hơn so với các mặt của cốt truyện (tôi không hoàn toàn chắc chắn trong thực tế, nhưng hãy giả sử đó là vì câu hỏi). Để xác nhận, nhìn vào các nhãn lỗi trong biểu đồ QQ, chúng ta có thể thấy rằng chúng khớp với các nhãn lỗi ở trung tâm của biểu đồ Residuals.

Nhưng làm thế nào chúng ta có thể định lượng vùng dư có phương sai cao hơn đáng kể?

không đồng nhất


2
Tôi không chắc bạn có đúng rằng có sự chênh lệch cao hơn ở giữa không. Thực tế là các ngoại lệ ở khu vực trung tâm đối với tôi có vẻ là kết quả của thực tế rằng đó là nơi hầu hết các dữ liệu. Tất nhiên, điều này không làm mất hiệu lực câu hỏi của bạn.
Peter Ellis

1
Qqplot nhằm xác định sự không khác biệt của phân phối và không phải là phương sai không đồng nhất trực tiếp.
Michael R. Chernick

@PeterEllis Có, tôi đã chỉ định trong câu hỏi rằng tôi không chắc phương sai là khác nhau, nhưng tôi đã có hình ảnh chẩn đoán này tiện dụng và thực sự có thể có một số dị thể trong ví dụ.
Robert Kubrick

@MichaelCécick Tôi chỉ đề cập đến qqplot để minh họa cách các lỗi cao nhất dường như tập trung ở giữa lô dư, do đó có khả năng cho thấy phương sai cao hơn trong khu vực đó.
Robert Kubrick

Câu trả lời:


15

Vấn đề này có một cảm giác khám phá cho nó. John Tukey mô tả nhiều quy trình để khám phá tính không đồng nhất trong Phân tích dữ liệu khám phá cổ điển của ông (Addison-Wesley 1977). Có lẽ hữu ích trực tiếp nhất là một biến thể của " âm mưu sơ đồ lang thang " của ông . Điều này cắt một biến (chẳng hạn như giá trị dự đoán) vào các thùng và sử dụng tóm tắt chữ m (khái quát của các ô vuông) để hiển thị vị trí, trải và hình dạng của biến khác cho mỗi thùng. Các thống kê m-letter được làm mịn hơn nữa để nhấn mạnh các mẫu tổng thể thay vì độ lệch cơ hội.

Một phiên bản nhanh có thể được nấu chín bằng cách khai thác các boxplotthủ tục trong R. Chúng tôi minh họa với dữ liệu không đồng nhất mạnh mẽ mô phỏng:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

Dữ liệu

Chúng ta hãy lấy các giá trị dự đoán và phần dư từ hồi quy OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

Ở đây, sau đó, là âm mưu sơ đồ lang thang sử dụng các thùng có số lượng bằng nhau cho các giá trị dự đoán. Tôi sử dụng lowesscho một mịn nhanh chóng và bẩn.

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

Sơ đồ lang thang

Các đường cong màu xanh làm mịn các dải phân cách. Xu hướng ngang của nó cho thấy hồi quy nói chung là phù hợp. Các đường cong khác làm mịn các đầu hộp (tứ phân vị) và hàng rào (thường là các giá trị cực trị). Sự hội tụ mạnh mẽ của chúng và sự phân tách tiếp theo làm chứng cho tính không đồng nhất - và giúp chúng ta mô tả và định lượng nó.

(Lưu ý thang đo phi tuyến trên trục hoành, phản ánh sự phân bố của các giá trị dự đoán. Với một chút công việc, trục này có thể được tuyến tính hóa, đôi khi rất hữu ích.)


6
Ví dụ hay, tôi đã nghĩ rằng một số triển khai chạy lượng tử đã có sẵn trong R (để tránh vấn đề với các thùng hoàn toàn). Loại nhắc nhở tôi về túi-lô . Cũng xem phần mở rộng của Rob Hyndman trong gói Rainbow của anh ấy.
Andy W

9

Thông thường, tính không đồng nhất được mô hình hóa bằng cách sử dụng phương pháp Breusch - Pagan. Phần dư từ hồi quy tuyến tính của bạn sau đó được bình phương và hồi quy vào các biến trong mô hình tuyến tính ban đầu của bạn. Hồi quy sau được gọi là hồi quy phụ .

n R 2 a R 2nRa2 , trong đó là số lượng quan sát và là từ hồi quy phụ trợ đóng vai trò là một thống kê kiểm tra cho giả thuyết khống về tính đồng nhất.nRa2R2

Đối với mục đích của bạn, bạn có thể tập trung vào các hệ số riêng lẻ từ mô hình này để xem biến nào được dự đoán nhiều nhất về kết quả phương sai cao hay thấp.


1
+1 Nhưng xin lưu ý rằng các thử nghiệm như vậy bị hạn chế ở các dạng không đồng nhất mà chúng có thể phát hiện. Các ví dụ như câu trả lời trong câu trả lời của tôi có thể lướt qua, mặc dù độ không đồng nhất cực kỳ mạnh.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.