Đồng thời không đồng nhất và đuôi nặng trong mô hình hồi quy


8

Tôi đang cố gắng tạo một mô hình dự đoán bằng cách sử dụng hồi quy. Đây là âm mưu chẩn đoán cho mô hình mà tôi nhận được từ việc sử dụng lm () trong R: lô chẩn đoán từ R

Những gì tôi đọc được từ âm mưu QQ là phần dư có phân phối đuôi nặng và âm mưu Residuals vs Fited dường như cho thấy rằng phương sai của phần dư không phải là hằng số. Tôi có thể chế ngự những cái đuôi nặng nề của phần dư bằng cách sử dụng một mô hình mạnh mẽ:

fitRobust = rlm(formula, method = "MM", data = myData)

Nhưng đó là nơi mọi thứ dừng lại. Mô hình mạnh mẽ nặng vài điểm 0. Sau khi tôi loại bỏ các điểm đó, đây là cách phần dư và giá trị được trang bị của mô hình mạnh mẽ trông như sau:Residuals vs Fited cho mô hình mạnh mẽ

Sự không đồng nhất dường như vẫn còn đó. Sử dụng

logtrans(model, alpha) 

từ gói MASS, tôi đã cố gắng tìm một sao choα

rlm(formula, method = "MM") 

với công thức là có số dư với phương sai không đổi. Khi tôi tìm thấy , mô hình mạnh mẽ thu được cho công thức trên có biểu đồ Residuals vs Fited sau:log(Y+α)X1++Xnα

Residuals vs Fited cho phản hồi chuyển đổi log

Đối với tôi như thể phần dư vẫn không có phương sai không đổi. Tôi đã thử các biến đổi khác của phản ứng (bao gồm cả Box-Cox), nhưng chúng cũng không giống như một sự cải tiến. Tôi thậm chí không chắc chắn rằng giai đoạn thứ hai của những gì tôi đang làm (tức là tìm một sự chuyển đổi của phản ứng trong một mô hình mạnh mẽ) được hỗ trợ bởi bất kỳ lý thuyết nào. Tôi rất đánh giá cao bất kỳ ý kiến, suy nghĩ hoặc đề xuất.


2
Tôi nghĩ rằng bạn đang hơi kén chọn về phương sai không đổi. Nó xuất hiện ok với tôi. Mục đích của hồi quy là gì? Giải thích / kiểm tra giả thuyết hoặc dự đoán?
xác suất

@probabilityislogic, cảm ơn bạn đã bình luận. Tôi đánh giá rất cao nó. Mục tiêu của tôi là dự đoán. Bạn đúng. Tôi có lẽ là quá kén chọn. Có một biện pháp cho sự không đồng nhất mà tôi có thể xem xét? Tôi đã nghĩ đến việc vẽ phương sai so với các giá trị được trang bị nhưng không có nhiều điểm cho mỗi giá trị dự đoán để tính toán phương sai. Tôi cũng tò mò muốn hiểu giải pháp cho vấn đề này nói chung là gì. Các biến đổi Box-Cox và log cũng có thể áp dụng cho các mô hình mạnh mẽ không?
dùng765195

Bạn có thể thực hiện kiểm tra cặp cho sự bằng nhau của phương sai bằng cách sử dụng kiểm tra F cho một mô hình với các thuật ngữ lỗi Gaussian hoặc nếu chúng có phân phối không phải là Gaussian, có các thử nghiệm mạnh để phân tán như thử nghiệm của Levene.
Michael R. Chernick

Cảm ơn bạn @MichaelCécick. Tôi rất đánh giá cao bình luận của bạn. Cuối cùng tôi đã sử dụng tổng quát hóa của Koenker về thử nghiệm Breusch-Pagan cho tính không đồng nhất như được thực hiện trong gói lmtest trong R ( hosho.ees.hokudai.ac.jp/~kubo/Rdoc/l Library / lmtest / html / .
dùng765195

Câu trả lời:


3

Heteroscedasticity và leptokurtosis dễ dàng bị bó hẹp trong phân tích dữ liệu. Lấy một mô hình dữ liệu tạo ra một thuật ngữ lỗi là Cauchy. Điều này đáp ứng các tiêu chí cho homoscedasticty. Phân phối Cauchy có phương sai vô hạn. Lỗi Cauchy là cách mô phỏng bao gồm quá trình lấy mẫu ngoại lệ.

Với các lỗi đuôi nặng này, ngay cả khi bạn phù hợp với mô hình trung bình chính xác, ngoại lệ dẫn đến phần dư lớn. Một thử nghiệm về tính không đồng nhất có lỗi loại I rất lớn trong mô hình này. Một phân phối Cauchy cũng có một tham số tỷ lệ. Việc tạo ra các thuật ngữ lỗi với sự gia tăng tuyến tính trong thang đo tạo ra dữ liệu không đồng nhất, nhưng khả năng phát hiện các hiệu ứng đó thực tế là vô hiệu nên lỗi loại II cũng bị thổi phồng.

Hãy để tôi đề nghị sau đó, phương pháp phân tích dữ liệu phù hợp sẽ không trở nên nhàm chán trong các thử nghiệm. Kiểm tra thống kê chủ yếu là sai lệch. Không có nơi nào rõ ràng hơn các thử nghiệm nhằm xác minh các giả định mô hình hóa thứ cấp. Họ không thay thế cho lẽ thường. Đối với dữ liệu của bạn, bạn có thể thấy rõ hai phần dư lớn. Ảnh hưởng của chúng đối với xu hướng là tối thiểu vì nếu có bất kỳ phần dư nào được bù trong một đường thẳng tuyến tính từ đường 0 trong biểu đồ của phần dư so với được trang bị. Đó là tất cả những gì bạn cần biết.

Điều mong muốn sau đó là một phương tiện ước tính mô hình phương sai linh hoạt sẽ cho phép bạn tạo các khoảng dự đoán trên một loạt các phản ứng được trang bị. Thật thú vị, phương pháp này có khả năng xử lý hầu hết các hình thức lành mạnh của cả dị thể và kurtotis. Tại sao không sử dụng một cách tiếp cận spline làm mịn để ước tính lỗi bình phương trung bình.

Lấy ví dụ sau:

set.seed(123)
x <- sort(rexp(100))
y <- rcauchy(100, 10*x)

f <- lm(y ~ x)
abline(f, col='red')
p <- predict(f)
r <- residuals(f)^2

s <- smooth.spline(x=p, y=r)

phi <- p + 1.96*sqrt(s$y)
plo <- p - 1.96*sqrt(s$y)

par(mfrow=c(2,1))
plot(p, r, xlab='Fitted', ylab='Squared-residuals')
lines(s, col='red')
legend('topleft', lty=1, col='red', "predicted variance")

plot(x,y, ylim=range(c(plo, phi), na.rm=T))
abline(f, col='red')
lines(x, plo, col='red', lty=2)
lines(x, phi, col='red', lty=2)

Đưa ra khoảng dự đoán sau đây "mở rộng" để phù hợp với ngoại lệ. Nó vẫn là một công cụ ước tính nhất quán về phương sai và nói với mọi người một cách hữu ích, "Này, có một quan sát lớn, mạnh mẽ xung quanh X = 4 và chúng ta không thể dự đoán các giá trị rất hữu ích ở đó."

nhập mô tả hình ảnh ở đây


Điều này sẽ làm việc cho các loại lms khác, chẳng hạn như gls?
dùng2974951
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.