Liệu nó có ý nghĩa để nghiên cứu các lô của phần dư đối với biến phụ thuộc?

11

Tôi muốn biết liệu có hợp lý khi nghiên cứu các lô của phần dư đối với biến phụ thuộc hay không khi tôi có hồi quy đơn biến. Nếu nó có ý nghĩa, thì mối tương quan mạnh mẽ, tuyến tính, tăng trưởng giữa các phần dư (trên trục y) và các giá trị ước tính của biến phụ thuộc (trên trục x) có nghĩa là gì?

nhập mô tả hình ảnh ở đây

regression residuals

— Luigi
nguồn

3

Tôi không chắc ý của bạn là "tương quan mạnh mẽ, tuyến tính, đang phát triển". Bạn có thể hiển thị cốt truyện? Hoàn toàn hợp lý để vẽ các phần dư so với các giá trị được trang bị. Nói chung, bạn muốn không có mối quan hệ - một đường ngang phẳng chạy qua trung tâm. Ngoài ra, bạn muốn phân tán dọc của phần dư không đổi từ bên trái của âm mưu của bạn sang bên phải.

— gung - Phục hồi Monica

Chào. Cảm ơn về câu trả lời của bạn. Đây là cốt truyện: img100.imageshack.us/img100/7414/bwages.png

— Luigi

Đó là sự bối rối. Hãy để tôi đảm bảo rằng tôi hiểu: Bạn đã chạy mô hình hồi quy, sau đó vẽ các phần dư so với các giá trị được trang bị, và đó là những gì bạn có, có đúng không? Nó không nên trông như thế. Bạn có thể chỉnh sửa câu hỏi của bạn và dán mã bạn đã sử dụng cho mô hình và cốt truyện không?

— gung - Phục hồi Monica

Bạn đã hiểu đúng. Tôi xin lỗi, nhưng tôi không biết cách lấy lại mã, tôi đã chạy hồi quy và vẽ các phần dư với chương trình Gretl.

— Luigi

2

Ban đầu tôi không thấy bình luận của @ mark999 khi tôi viết câu trả lời của mình bên dưới. Tôi nghĩ rằng sự nghi ngờ của anh ta là chính xác, rằng đây là phần dư so với giá trị y. Luigi, làm lại biểu đồ của bạn - đừng cố diễn giải nó khi bạn có thể sai về các biến là gì.

— Michael Giám mục

12

Giả sử rằng bạn có hồi quy , nơi . Sau đó, . Giá trị càng cao , phần dư càng lớn. Ngược lại, một âm mưu của phần dư chống lại sẽ không cho thấy mối quan hệ hệ thống. Ngoài ra, giá trị dự đoán nên vào khoảng $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ $\beta_1 \approx 0$ $y_i - \beta_0 \approx \epsilon_i$ $y$ $x$ $\hat{y}_i$ $\hat{\beta}_0$ --- giống nhau cho mọi quan sát. Nếu tất cả các giá trị dự đoán gần như giống nhau, chúng sẽ không tương thích với các lỗi.

Điều mà cốt truyện đang nói với tôi là và về cơ bản không liên quan (tất nhiên, có nhiều cách tốt hơn để thể hiện điều này). Cho chúng tôi biết nếu hệ số của bạn không phải là gần 0. $x$ $y$ $\hat{\beta}_1$

Khi chẩn đoán tốt hơn, sử dụng một biểu đồ của phần dư so với mức lương dự đoán hoặc so với giá trị . Bạn không nên quan sát một mô hình có thể phân biệt trong các ô này. $x$

Nếu bạn muốn trình diễn R một chút, ở đây bạn đi:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

— Charlie
nguồn

Điều này không có nghĩa là chỉ vì

, có thể mô hình cần nhiều biến giải thích hơn, chẳng hạn như các thuật ngữ đa thức.

β_{1} = 0

$\beta_1=0$

— Biuler

5

Giả sử mô hình ước tính được chỉ định chính xác ...

$P_X=X(X'X)^{-1}X'$ $P_X$ $P_X^2=P_X$ $P_X'=P_X$

$Cov(\hat{Y},\hat{e})=Cov(P_XY,(I-P_X)Y)=P_XCov(Y,Y)(I-P_X)'=\sigma^2P_X(I-P_X)=0$

Vì vậy, biểu đồ phân tán của phần dư so với biến phụ thuộc dự đoán sẽ không hiển thị tương quan.

Nhưng!

$Cov(Y,\hat{e})=Cov(Y,(I-P_X)Y)=Cov(Y,Y)(I-P_X)'=\sigma^2(I-P_X)$

$\sigma^2(I-P_X)$

Theo như tôi biết thì Gretl tạo ra theo mặc định đồ thị của phần dư so với biến phụ thuộc ban đầu (không phải là dự đoán!).

— Roah
nguồn

Tôi đánh giá cao khả năng khác nhau. Đây là nơi một số kiến thức về Gretl là hữu ích. Tuy nhiên, tôi tự hỏi làm thế nào hợp lý rằng đây là câu trả lời thực sự. Sử dụng dữ liệu mô phỏng của tôi, tôi đã tương quan và vẽ các phần dư so với dv gốc; r = .22 và cốt truyện trông rất giống cốt truyện thứ 3 của tôi, không phải cốt truyện. Tất nhiên, tôi đã xử lý những dữ liệu đó để kiểm tra tính hợp lý của câu chuyện của mình - chúng có thể không phù hợp để kiểm tra dữ liệu của bạn.

— gung - Phục hồi Monica

@gung nghĩa là bạn đã sử dụng dữ liệu mô phỏng của bạn là gì?

— Michael Giám mục

@MichaelBishop nếu bạn nhìn vào câu trả lời của tôi, bạn sẽ thấy rằng tôi đã mô phỏng dữ liệu để thử câu chuyện của mình để xem nó có giống như cốt truyện được đăng không. Mã và lô của tôi được trình bày. Vì tôi đã chỉ định hạt giống, nên bất kỳ ai có quyền truy cập vào R.

— gung - Rebstate Monica

4

Có thể bạn đang nhầm lẫn giữa các giá trị được trang bị / dự đoán với các giá trị thực tế?

Như @gung và @biostat đã nói, bạn hy vọng không có mối quan hệ nào giữa các giá trị được trang bị và phần dư. Mặt khác, việc tìm kiếm một mối quan hệ tuyến tính giữa các giá trị thực tế của biến phụ thuộc / kết quả và phần dư sẽ được dự kiến và không đặc biệt nhiều thông tin.

Đã thêm vào để làm rõ câu trước: Không chỉ có bất kỳ mối quan hệ tuyến tính nào giữa phần dư và giá trị thực của xuất phát ... Đối với các giá trị đo lường thấp của Y, các giá trị dự đoán của Y từ một mô hình hữu ích sẽ có xu hướng cao hơn các giá trị đo thực tế và ngược lại.

— Giám mục Michael
nguồn

Hàm ý của những gì bạn đang nói là, nếu các giá trị luôn bị dự đoán thấp ở các giá trị thấp của Y và luôn bị dự đoán quá mức ở các giá trị cao của Y, điều đó ổn. Đó là một vấn đề, phải không?

— rolando2

@ rolando2, tôi không ngụ ý những gì bạn nói tôi đã ngụ ý mặc dù có lẽ tôi nên làm rõ câu trả lời của mình. Như bạn đã nói, việc dự đoán thấp ở mức thấp của Y và dự đoán quá mức ở giá trị cao của Y sẽ là dấu hiệu của một mô hình rất xấu. Tôi đã tưởng tượng ngược lại, dự đoán quá mức ở các giá trị thấp của Y và dự đoán thấp ở các giá trị cao của Y. Hiện tượng này là phổ biến, và được dự đoán sẽ tỷ lệ thuận với mức độ chênh lệch trong biến phụ thuộc mà bạn có thể giải thích. Hãy tưởng tượng bạn thiếu bất kỳ biến số nào dự đoán Y, vì vậy bạn luôn sử dụng giá trị trung bình như dự đoán của mình

— Michael Bishop

1

những gì bạn nói có ý nghĩa với tôi, ngoại trừ một điều. Tôi gặp khó khăn khi tưởng tượng rằng một xu hướng mạnh mẽ như Luigi đã thể hiện sẽ xuất hiện trong một giải pháp âm thanh hoặc mong muốn, ngay cả khi xu hướng đi từ trên trái sang dưới phải.

— rolando2

1

@ rolando2, Phần dư thường được định nghĩa là quan sát - được trang bị, do đó phần dư âm là dự đoán quá mức. Trong một mô hình được chỉ định đúng với ít năng lực giải thích - Tôi là một nhà khoa học xã hội nên tôi thấy những điều này mọi lúc - sẽ có một mối quan hệ tích cực mạnh mẽ giữa phần dư và các giá trị kết quả quan sát được. Nếu đây là phần dư so với cốt truyện thực tế, thì xu hướng từ phía trên bên trái sang phía dưới bên phải, sẽ là tín hiệu của một mô hình được xác định sai mà bạn ban đầu lo lắng.

— Michael Giám mục

Ok, lỗi của tôi. Như Michael Bishop và Roah đã viết, Gretl âm mưu dư thừa đối với y quan sát , không phải là dự đoán. Tôi rất xin lỗi vì tất cả sự lộn xộn này, tôi thực sự không mong đợi tất cả những câu trả lời này. Tôi là người mới bắt đầu và tôi đã mắc lỗi này, vì vậy tôi hy vọng bạn có thể "tha thứ" cho tôi. Dù sao, tôi nghĩ rằng điều này sẽ cho tôi thấy rằng tôi nên sử dụng nhiều biến giải thích hơn. Cảm ơn tất cả!

— Luigi

3

Các câu trả lời được đưa ra đang cho tôi một số ý tưởng về những gì đang diễn ra ở đây. Tôi tin rằng có thể đã có một số sai lầm do tai nạn. Xem câu chuyện sau có hợp lý không: Để bắt đầu, tôi nghĩ có lẽ có mối quan hệ chặt chẽ giữa X & Y trong dữ liệu (đây là một số mã và cốt truyện):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

nhập mô tả hình ảnh ở đây

Nhưng do nhầm lẫn Y đã được dự đoán chỉ từ trung bình. Kết hợp điều này, phần dư từ mô hình duy nhất trung bình được vẽ dựa trên X, mặc dù mục đích của nó là âm mưu chống lại các giá trị được trang bị (mã & lô):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

nhập mô tả hình ảnh ở đây

Chúng ta có thể khắc phục điều này bằng cách khớp mô hình thích hợp và vẽ các phần dư từ đó (mã & lô):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

nhập mô tả hình ảnh ở đây

Đây có vẻ như chỉ là những kiểu ngốc nghếch tôi đã làm khi tôi bắt đầu.

— gung - Phục hồi Monica
nguồn

0

Biểu đồ này chỉ ra rằng mô hình bạn trang bị không tốt. Như @gung đã nói trong các bình luận đầu tiên về câu hỏi chính rằng không nên có mối quan hệ nào giữa câu trả lời được xác định và phần dư.

"một nhà phân tích nên mong đợi một mô hình hồi quy sẽ sai khi dự đoán một phản ứng theo kiểu ngẫu nhiên; mô hình nên dự đoán các giá trị cao hơn thực tế và thấp hơn thực tế với xác suất bằng nhau. Xem điều này "

Tôi muốn giới thiệu phản ứng cốt truyện đầu tiên so với biến độc lập để xem mối quan hệ giữa chúng. Có thể hợp lý khi thêm các thuật ngữ đa thức trong mô hình.

— Sinh học
nguồn

0

Đây không phải là những gì xảy ra nếu không có mối quan hệ giữa biến X & Y sao? Từ việc nhìn vào biểu đồ này, có vẻ như bạn đang dự đoán Y với ý nghĩa của nó.

— Ađam
nguồn

0

Tôi nghĩ OP âm mưu dư so với biến phản hồi ban đầu (không phải biến phản hồi được trang bị từ mô hình). Tôi thấy các lô như thế này mọi lúc, với mô hình chính xác gần như giống nhau. Hãy chắc chắn rằng bạn vẽ các phần dư so với các giá trị được trang bị, vì tôi không chắc những suy luận có ý nghĩa nào bạn có thể thu thập từ phần dư so với Y ban đầu. Nhưng tôi chắc chắn có thể sai.

— Todai
nguồn