Các lô dư: tại sao biểu đồ so với các giá trị được trang bị, không quan sát các giá trị ?


20

Trong bối cảnh hồi quy OLS, tôi hiểu rằng một biểu đồ dư (so với các giá trị được trang bị) được xem theo quy ước để kiểm tra phương sai không đổi và đánh giá đặc tả mô hình. Tại sao phần dư được vẽ dựa trên sự phù hợp, mà không phải là giá trị ? Làm thế nào là thông tin khác nhau từ hai lô này?Y

Tôi đang làm việc trên một mô hình sản xuất các lô dư sau đây:

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Vì vậy, âm mưu so với các giá trị được trang bị có vẻ tốt trong nháy mắt nhanh chóng, nhưng âm mưu thứ hai so với giá trị có một mẫu. Tôi đang tự hỏi tại sao một mô hình rõ rệt như vậy cũng sẽ không biểu hiện trong cốt truyện còn lại và phù hợp ....Y

Tôi không tìm kiếm sự giúp đỡ trong việc chẩn đoán các vấn đề với mô hình, mà chỉ cố gắng tìm hiểu sự khác biệt (nói chung) giữa (1) dư so với âm mưu phù hợp & (2) dư so với âm mưu Y

Đối với giá trị của nó, tôi chắc chắn rằng mẫu lỗi trong biểu đồ thứ hai là do (các) biến bị bỏ qua ảnh hưởng đến DV. Tôi hiện đang làm việc để có được dữ liệu đó, mà tôi mong đợi sẽ giúp phù hợp với tổng thể và đặc điểm kỹ thuật. Tôi đang làm việc với dữ liệu bất động sản: DV = Giá bán. IV: Sq.ft của ngôi nhà, # không gian nhà để xe, năm xây dựng, năm xây dựng . 2


3
Tôi đã tự do điều chỉnh tiêu đề để phù hợp với ý định của bạn chặt chẽ hơn một chút. Ngay cả trong số các nhà kinh tế (bạn có thể là một) "IV" có một ý nghĩa khác của biến công cụ, mặc dù không có sự mơ hồ trong trường hợp này. Để giao tiếp tốt hơn trên một số ngành khoa học thống kê, một số người trong chúng tôi không khuyến khích các từ viết tắt được sử dụng tại địa phương như DV (đối với một số người vẫn có nghĩa là Deo volente ) và IV ủng hộ các thuật ngữ gợi ý như phản ứng hoặc kết quả trên một mặt và dự đoán hoặc đồng biến trên khác Tôi biết đây là một chi tiết trong câu hỏi của bạn, nhưng nó đã được trả lời tốt.
Nick Cox

Câu trả lời:


10

Bằng cách xây dựng, thuật ngữ lỗi trong mô hình OLS không tương thích với các giá trị quan sát được của các hiệp phương X. Điều này sẽ luôn đúng với dữ liệu được quan sát ngay cả khi mô hình mang lại các ước tính sai lệch không phản ánh các giá trị thực của tham số vì giả định của mô hình bị vi phạm (như vấn đề biến bị bỏ qua hoặc vấn đề có quan hệ nhân quả ngược). Các giá trị dự đoán hoàn toàn là một hàm của các hiệp phương sai này, vì vậy chúng cũng không tương thích với thuật ngữ lỗi. Do đó, khi bạn vẽ các phần dư so với các giá trị dự đoán, chúng sẽ luôn trông ngẫu nhiên vì chúng thực sự không tương thích khi xây dựng công cụ ước tính. Ngược lại, điều này hoàn toàn có thể (và thực sự có thể xảy ra) đối với thuật ngữ lỗi của một mô hình có tương quan với Y trong thực tế. Ví dụ, với biến X nhị phân, Y thực sự càng từE(Y | X = 1)hoặc E(Y | X = 0)sau đó phần dư sẽ càng lớn. Đây là trực giác tương tự với dữ liệu mô phỏng trong R nơi chúng ta biết mô hình không thiên vị vì chúng ta kiểm soát quá trình tạo dữ liệu:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Chúng tôi nhận được cùng một kết quả tương quan bằng không với một mô hình thiên vị, ví dụ nếu chúng tôi bỏ qua x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

2
Hữu ích, nhưng câu đầu tiên có thể được viết lại cho rõ ràng. "Xây dựng" sản xuất phần dư; thuật ngữ lỗi được coi là ở ngoài đó và tồn tại trước khi tính toán. Tương tự, tôi sẽ nói rằng đó là các ước tính được xây dựng, không phải là công cụ ước tính, là phương pháp được sử dụng để xây dựng chúng.
Nick Cox

Nhưng sau đó tại sao chúng ta thậm chí nhìn vào biểu đồ còn lại (vs phù hợp)? Mục đích chẩn đoán nào mà cốt truyện có? Tôi mới đến trang web. Tôi có phải gắn thẻ Michael hoặc anh ấy nhận được nhận xét này tự động? Nhận xét của tôi cũng sẽ áp dụng cho câu trả lời @Glen_b bên dưới. Cả hai câu trả lời giúp tôi hiểu. Cảm ơn.
Mac

... bởi vì họ có thể tiết lộ cấu trúc khác. Việc thiếu mối tương quan giữa dư và phù hợp không có nghĩa là những điều khác cũng không thể xảy ra. Nếu bạn tin rằng mô hình của bạn là hoàn hảo thì bạn sẽ không tin điều đó là có thể .... Trong thực tế, bạn cần phải kiểm tra các loại cấu trúc khác.
Nick Cox

@Mac, tôi sẽ thành thật và nói rằng tôi không bao giờ nhìn vào những mảnh đất này. Nếu bạn đang cố gắng đưa ra một suy luận nguyên nhân thì bạn nên suy nghĩ thông qua các vấn đề biến đổi và các vấn đề nhân quả đảo ngược về mặt khái niệm. Một trong hai vấn đề có thể xảy ra và bạn sẽ không thể quan sát nó từ những mảnh đất này vì chúng là những vấn đề tương đương quan sát. Nếu tất cả những gì bạn quan tâm là dự đoán thì bạn nên suy nghĩ kỹ và kiểm tra ngoài mẫu xem dự đoán của mô hình của bạn hoạt động tốt như thế nào (nếu không đó không phải là dự đoán).
Michael

@NickCox Có, ý tôi là thuật ngữ lỗi theo ước tính của mô hình và không phải giá trị thực của tham số.
Michael

19

Hai sự thật mà tôi cho rằng bạn hài lòng với tôi chỉ nêu:

tôi. ytôi= =y^tôi+e^tôi

ii. Cov(y^tôi,e^tôi)= =0

Sau đó:

Cov(ytôi,e^tôi)= =Cov(y^tôi+e^tôi,e^tôi)

= =Cov(y^tôi,e^tôi)+Cov(e^tôi,e^tôi)

= =0+σe2

= =σe2

Vì vậy, trong khi giá trị được trang bị không tương quan với phần dư, quan sát .

Trong thực tế, điều này là do cả quan sát và phần dư có liên quan đến thuật ngữ lỗi.

Điều này thường làm cho việc sử dụng lô dư cho mục đích chẩn đoán có phần khó khăn hơn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.