Trong hồi quy tuyến tính đơn giản, công thức cho phương sai của phần dư đến từ đâu?


21

Theo một văn bản mà tôi đang sử dụng, công thức cho phương sai của phần dư được đưa ra bởi:ith

σ2(11n(xix¯)2Sxx)

Tôi thấy điều này khó tin kể từ khi còn lại là sự khác biệt giữa giá trị quan sát và giá trị được trang bị; nếu người ta tính toán phương sai của chênh lệch, ít nhất tôi sẽ mong đợi một số "điểm cộng" trong biểu thức kết quả. Bất kỳ trợ giúp trong việc hiểu đạo hàm sẽ được đánh giá cao.ithithith


Có thể một số dấu " " trong văn bản bị hiển thị sai (hoặc đọc sai) thành dấu " " không? +
whuber

Tôi đã nghĩ điều này, nhưng nó đã xảy ra hai lần trong văn bản (2 chương khác nhau) vì vậy tôi nghĩ nó không thể xảy ra. Tất nhiên, một dẫn xuất của công thức sẽ giúp! :)
Eric

Các tiêu cực là kết quả của mối tương quan tích cực giữa một quan sát và giá trị phù hợp của nó, làm giảm phương sai của sự khác biệt.
Glen_b -Reinstate Monica

@Glen Cảm ơn bạn đã giải thích lý do tại sao hóa ra công thức có ý nghĩa, cùng với đạo hàm ma trận của bạn dưới đây.
Eric

Câu trả lời:


27

Trực giác về các dấu "cộng" liên quan đến phương sai (từ thực tế là ngay cả khi chúng ta tính toán phương sai của các biến ngẫu nhiên độc lập, chúng ta thêm phương sai của chúng) là chính xác nhưng không đầy đủ: nếu các biến ngẫu nhiên liên quan không độc lập , sau đó hiệp phương sai cũng có liên quan - và hiệp phương sai có thể âm. Tồn tại một biểu thức gần giống như biểu thức trong câu hỏi được cho rằng nó "nên" là bởi OP (và tôi), và đó là phương sai của lỗi dự đoán , biểu thị nó , trong đó :y 0 = β 0 + β 1 x 0 + u 0e0=y0y^0y0=β0+β1x0+u0

Var(e0)=σ2(1+1n+(x0x¯)2Sxx)

Sự khác biệt quan trọng giữa phương sai của sai số dự báo và phương sai của các ước lượng lỗi (tức là của dư), là số hạng sai số của các quan sát dự đoán là không tương quan với các ước lượng , vì giá trị đã không được sử dụng trong xây dựng công cụ ước tính và tính toán các ước tính, là một giá trị ngoài mẫu.y0

Đại số cho cả hai tiến hành theo cùng một cách chính xác đến một điểm (sử dụng thay vì ), nhưng sau đó phân kỳ. Đặc biệt:tôi0i

Trong hồi quy tuyến tính đơn giản , , phương sai của công cụ ước tính vẫn còn Var ( u i ) = σ 2 β = ( β 0 , beta 1 ) 'yi=β0+β1xi+uiVar(ui)=σ2β^=(β^0,β^1)

Var(β^)=σ2(XX)1

Chúng ta có

XX=[nxixixi2]

và như vậy

(XX)1=[xi2xixin][nxi2(xi)2]1

Chúng ta có

[nxi2(xi)2]=[nxi2n2x¯2]=n[xi2nx¯2]=n(xi2x¯2)nSxx

Vì thế

(XX)1=[(1/n)xi2x¯x¯1](1/Sxx)

có nghĩa là

Var(β^0)=σ2(1nxi2) (1/Sxx)=σ2nSxx+nx¯2Sxx=σ2(1n+x¯2Sxx)

Var(β^1)=σ2(1/Sxx)

Cov(β^0,β^1)=σ2(x¯/Sxx)

Phần dư thứ được định nghĩa lài

u^i=yiy^i=(β0β^0)+(β1β^1)xi+ui

Các hệ số thực tế được coi là hằng số, biến hồi quy được cố định (hoặc có điều kiện trên đó) và không có hiệp phương sai với thuật ngữ lỗi, nhưng các công cụ ước tính có tương quan với thuật ngữ lỗi, bởi vì các công cụ ước tính chứa biến phụ thuộc và biến phụ thuộc chứa thuật ngữ lỗi. Vì vậy chúng tôi có

Var(u^i)=[Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

=[σ2+σ2(1n+x¯2Sxx)+xi2σ2(1/Sxx)+2Cov([(β0β^0)+(β1β^1)xi],ui)

Gói nó lên một chút để có được

Var(u^i)=[σ2(1+1n+(xix¯)2Sxx)]+2Cov([(β0β^0)+(β1β^1)xi],ui)

Thuật ngữ trong ngoặc đơn lớn có cùng cấu trúc với phương sai của lỗi dự đoán, với thay đổi duy nhất là thay vì chúng ta sẽ có (và phương sai sẽ là của chứ không phải của ). Nhiệm kỳ hiệp phương sai cuối cùng là zero cho các lỗi dự đoán bởi vì và do đó là không bao gồm trong ước lượng, nhưng không phải không cho các lỗi ước lượng vì và do đó là một phần của mẫu và vì vậy nó được bao gồm trong người ước tính. Chúng ta cóx 0 e 0 u i y 0 u 0xix0e0u^iy0u0u iyiui

2Cov([(β0β^0)+(β1β^1)xi],ui)=2E([(β0β^0)+(β1β^1)xi]ui)

=2E(β^0ui)2xiE(β^1ui)=2E([y¯β^1x¯]ui)2xiE(β^1ui)

sự thay thế cuối cùng từ cách tính . Tiếp tụcβ^0

...=2E(y¯ui)2(xix¯)E(β^1ui)=2σ2n2(xix¯)E[(xix¯)(yiy¯)Sxxui]

=2σ2n2(xix¯)Sxx[(xix¯)E(yiuiy¯ui)]

=2σ2n2(xix¯)Sxx[σ2nji(xjx¯)+(xix¯)σ2(11n)]

=2σ2n2(xix¯)Sxx[σ2n(xix¯)+(xix¯)σ2]

=2σ2n2(xix¯)Sxx[0+(xix¯)σ2]=2σ2n2σ2(xix¯)2Sxx

Chèn biểu thức này vào biểu thức cho phương sai của phần dư, chúng ta thu được

Var(u^i)=σ2(11n(xix¯)2Sxx)

Vì vậy, mũ ra cho văn bản OP đang sử dụng.

(Tôi đã bỏ qua một số thao tác đại số, không có gì lạ khi đại số OLS được dạy ngày càng ít hơn trong những ngày này ...)

MỘT SỐ TỔNG HỢP

Vì vậy, có vẻ như những gì hoạt động "chống lại" chúng tôi (phương sai lớn hơn) khi dự đoán, hoạt động "cho chúng tôi" (phương sai thấp hơn) khi ước tính. Đây là một điểm khởi đầu tốt để người ta suy ngẫm tại sao một sự phù hợp tuyệt vời có thể là một dấu hiệu xấu cho khả năng dự đoán của mô hình (tuy nhiên phản tác dụng này có thể nghe có vẻ ...).
Thực tế là chúng tôi đang ước tính giá trị dự kiến ​​của biến hồi quy, làm giảm phương sai đi . Tại sao? bởi vì bằng cách ước tính , chúng tôi "nhắm mắt" với một số biến đổi lỗi tồn tại trong mẫu, vì về cơ bản chúng tôi ước tính một giá trị dự kiến. Hơn nữa, lớn hơn độ lệch của một quan sát của một regressor từ trung bình mẫu của regressor,1/nphương sai của phần dư liên quan đến quan sát này sẽ là ... quan sát càng sai lệch, phần dư của nó càng ít sai lệch ... Đó là sự thay đổi của các biến hồi quy hoạt động cho chúng ta, bằng cách "thay thế" lỗi không xác định- biến thiên.

Nhưng đó là tốt cho ước tính . Để dự đoán , những điều tương tự chống lại chúng tôi: bây giờ, bằng cách không tính đến, tuy nhiên không hoàn hảo, tính biến thiên trong (vì chúng tôi muốn dự đoán nó), các ước tính không hoàn hảo của chúng tôi thu được từ mẫu cho thấy điểm yếu của chúng: chúng tôi ước tính có nghĩa là mẫu, chúng tôi không biết giá trị dự kiến ​​thực sự - phương sai tăng. Chúng tôi có một khác xa so với trung bình mẫu như được tính toán từ các quan sát khác -too xấu, phương sai lỗi dự đoán của chúng tôi được tăng thêm, bởi vì dự đoán sẽ có xu hướng đi lạc hướng ... ngôn ngữ khoa học "dự đoán tối ưu theo nghĩa giảm phương sai lỗi dự đoán, đại diện cho mộty0x0 y^0co lại theo giá trị trung bình của biến theo dự đoán ". Chúng tôi không cố gắng sao chép biến thiên của biến phụ thuộc - chúng tôi chỉ cố gắng giữ" gần với mức trung bình ".


Cảm ơn bạn đã trả lời rất rõ ràng! Tôi mừng vì "trực giác" của mình đã đúng.
Eric

Alecos, tôi thực sự không nghĩ rằng điều này là đúng.
Glen_b -Reinstate Monica

@Alecos lỗi là trong việc lấy các ước tính tham số để không tương quan với thuật ngữ lỗi. Phần này: không đúng. Var(u^i)=Var(ui)+Var(β^0)+xi2Var(β^1)+2xiCov(β^0,β^1)
Glen_b -Reinstate Monica

@Eric Tôi xin lỗi vì đã đánh lừa bạn trước đó. Tôi đã cố gắng cung cấp một số trực giác cho cả hai công thức.
Alecos Papadopoulos

+1 Bạn có thể thấy lý do tại sao tôi thực hiện trường hợp hồi quy bội cho việc này ... cảm ơn vì đã nỗ lực thêm để thực hiện trường hợp hồi quy đơn giản.
Glen_b -Reinstate Monica

19

Xin lỗi vì câu trả lời hơi ngắn gọn, có lẽ quá trừu tượng và thiếu một lượng giải thích trực quan mong muốn, nhưng tôi sẽ cố gắng quay lại và thêm một vài chi tiết sau. Ít nhất là nó ngắn.

Cho ,H=X(XTX)1XT

Var(yy^)=Var((IH)y)=(IH)Var(y)(IH)T=σ2(IH)2=σ2(IH)

Vì thế

Var(yiy^i)=σ2(1hii)

Trong trường hợp hồi quy tuyến tính đơn giản ... điều này đưa ra câu trả lời trong câu hỏi của bạn.

Câu trả lời này cũng có ý nghĩa: vì tương quan dương với , phương sai của chênh lệch phải nhỏ hơn tổng phương sai.y^iyi

-

Chỉnh sửa: Giải thích tại sao là idempotent .(IH)

(i) là idempotent:H

H2=X(XTX)1XTX(XTX)1XT =X [(XTX)1XTX] (XTX)1XT=X(XTX)1XT=H

(ii)(IH)2=I2IHHI+H2=I2H+H=IH


1
Đây là một dẫn xuất rất hay vì sự đơn giản của nó, mặc dù một bước không rõ ràng với tôi là tại sao . Có lẽ khi bạn mở rộng câu trả lời của mình một chút, vì dù sao bạn cũng dự định làm, bạn có thể nói một chút gì đó về điều đó? (tôi-H)2= =(tôi-H)
Jake Westfall

@Jake Đã thêm một vài dòng ở cuối
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.