Làm thế nào thuật ngữ lỗi hồi quy có thể tương quan với các biến giải thích?


22

Câu đầu tiên của trang wiki này tuyên bố rằng "Trong kinh tế lượng, một vấn đề nội sinh xảy ra khi một biến giải thích có tương quan với thuật ngữ lỗi. 1 "

Câu hỏi của tôi là làm thế nào điều này có thể xảy ra? Không phải là hồi quy beta được chọn sao cho thuật ngữ lỗi là trực giao với không gian cột của ma trận thiết kế?


9
Beta hồi quy được chọn sao cho phần là trực giao với không gian cột của ma trận thiết kế. Và điều này có thể đưa ra một ước tính khủng khiếp về phiên bản beta thực sự nếu thuật ngữ lỗi không trực giao với không gian cột của ma trận thiết kế! (tức là nếu mô hình của bạn không thỏa mãn các giả định cần thiết để ước lượng nhất quán các hệ số theo hồi quy).
Matthew Gunn

3
Tính trực giao của thuật ngữ lỗi và không gian cột của ma trận thiết kế không phải là một thuộc tính của phương pháp ước lượng của bạn (ví dụ: hồi quy bình phương nhỏ nhất bình thường), đó là một thuộc tính của mô hình (ví dụ: ). yi=a+bxi+ϵi
Matthew Gunn

Tôi nghĩ rằng chỉnh sửa của bạn nên là một câu hỏi mới bởi vì bạn dường như đã thay đổi đáng kể những gì bạn đang yêu cầu. Bạn luôn có thể liên kết trở lại cái này. (Tôi nghĩ bạn cũng cần phải nói nó tốt hơn - khi bạn viết "hiệu ứng sẽ như thế nào" thì tôi không rõ về tác dụng của cái gì ?) Lưu ý rằng việc hỏi một câu hỏi mới thường tạo ra nhiều sự chú ý hơn sẽ là một lợi thế cho bạn qua việc chỉnh sửa một cái hiện có.
Cá bạc

Câu trả lời:


28

Bạn đang kết hợp hai loại thuật ngữ "lỗi". Wikipedia thực sự có một bài viết dành cho sự khác biệt này giữa lỗi và phần dư .

Trong hồi quy OLS, phần dư (ước tính của bạn về lỗi hoặc thời hạn xáo trộn) thực sự được đảm bảo không tương quan với các biến dự đoán, giả sử hồi quy có chứa thuật ngữ chặn.ε^

Nhưng các lỗi "đúng" có thể tương quan với chúng và đây là những gì được coi là nội sinh.ε

Để đơn giản, hãy xem xét mô hình hồi quy (bạn có thể thấy mô hình này được mô tả là " quy trình tạo dữ liệu " cơ bản hoặc "DGP", mô hình lý thuyết mà chúng tôi giả định để tạo ra giá trị của ):y

yi=β1+β2xi+εi

Về nguyên tắc, không có lý do nào, tại sao không thể tương quan với trong mô hình của chúng tôi, tuy nhiên chúng tôi muốn nó không vi phạm các giả định OLS tiêu chuẩn theo cách này. Ví dụ, có thể là phụ thuộc vào một biến khác đã bị bỏ qua khỏi mô hình của chúng tôi và điều này đã được đưa vào thuật ngữ xáo trộn ( là nơi chúng ta gộp lại tất cả những thứ khác ngoài ảnh hưởng đến ). Nếu biến bị bỏ qua này cũng tương quan với , thì sẽ lần lượt tương quan với và chúng ta có tính nội sinh (đặc biệt là độ lệch biến bị bỏ qua ).xεyεxyxεx

Khi bạn ước tính mô hình hồi quy của mình trên dữ liệu có sẵn, chúng tôi sẽ nhận được

yi=β^1+β^2xi+ε^i

Do cách thức hoạt động của OLS *, phần dư sẽ không tương thích với . Nhưng điều đó không có nghĩa là chúng tôi đã tránh được tính nội sinh - điều đó chỉ có nghĩa là chúng tôi không thể phát hiện ra nó bằng cách phân tích mối tương quan giữa và , sẽ là (lỗi đến số). Và vì các giả định của OLS đã bị vi phạm, chúng tôi không còn được đảm bảo các thuộc tính tốt, chẳng hạn như không thiên vị, chúng tôi rất thích về OLS. Ước tính của chúng tôi sẽ bị sai lệch.ε^ ε x β 2xε^xβ^2


Ε x() Thực tế là không tương thích với ngay sau "phương trình bình thường" mà chúng ta sử dụng để chọn ước tính tốt nhất cho các hệ số.ε^x

Nếu bạn không quen với cài đặt ma trận và tôi dính vào mô hình bivariate được sử dụng trong ví dụ của tôi ở trên, thì tổng số dư bình phương là và để tìm ra tối ưu và , chúng tôi tìm ra phương trình bình thường, trước tiên là đầu tiên -Điều kiện đặt hàng cho đánh chặn ước tính:b 1 = β 1 b 2 = β 2S(b1,b2)=i=1nεi2=i=1n(yib1b2xi)2b1=β^1b2=β^2

Sb1=i=1n2(yib1b2xi)=2i=1nε^i=0

cho thấy tổng (và do đó có nghĩa là) của phần dư bằng 0, do đó, công thức cho hiệp phương sai giữa và bất kỳ biến sau đó giảm xuống . Chúng tôi thấy điều này bằng không bằng cách xem xét điều kiện đặt hàng đầu tiên cho độ dốc ước tính, đó là x1ε^x1n1i=1nxiε^i

Sb2=i=1n2xi(yib1b2xi)=2i=1nxiε^i=0

Nếu bạn đã quen làm việc với ma trận, chúng ta có thể khái quát hóa điều này thành hồi quy bội bằng cách xác định ; điều kiện đặt hàng đầu tiên để giảm thiểu ở mức tối ưu là:S ( b ) b = βS(b)=εε=(yXb)(yXb)S(b)b=β^

dSdb(β^)=ddb(yybXyyXb+bXXb)|b=β^=2Xy+2XXβ^=2X(yXβ^)=2Xε^=0

Điều này hàm ý mỗi hàng của và do đó mỗi cột của , trực giao với . Sau đó, nếu ma trận thiết kế có một cột của cột (xảy ra nếu mô hình của bạn có thuật ngữ chặn), chúng ta phải có để phần dư có tổng bằng 0 và không có nghĩa . Hiệp phương sai giữa và bất kỳ biến lại là và với bất kỳ biến có trong mô hình của chúng tôi, chúng tôi biết tổng này bằng không, bởi vìXXε^Xi=1nε^i=0ε^x1n1i=1nxiε^ixε^là trực giao với mỗi cột của ma trận thiết kế. Do đó, không có hiệp phương sai và không tương quan, giữa và bất kỳ biến dự đoán .ε^x

Nếu bạn thích một cái nhìn hình học hơn về mọi thứ , mong muốn của chúng tôi rằng nằm càng gần càng tốt với theo kiểu Pythagore , và thực tế là bị giới hạn trong không gian cột của ma trận thiết kế , ra lệnh rằng phải là hình chiếu trực giao của quan sát được lên không gian cột đó. Do đó, vectơ của phần dư là trực giao với mọi cột của , bao gồm cả vectơ củay^y y^Xy^yε^=yy^X1nnếu một thuật ngữ chặn được bao gồm trong mô hình. Như trước đây, điều này hàm ý tổng số dư là 0, do đó tính trực giao của vectơ còn lại với các cột khác của đảm bảo nó không tương thích với từng dự đoán đó.X

Các vectơ trong không gian chủ đề của hồi quy bội

Nhưng không có gì chúng tôi đã làm ở đây nói bất cứ điều gì về các lỗi thực sự . Giả sử có một thuật ngữ chặn trong mô hình của chúng tôi, phần dư chỉ không tương thích với là kết quả toán học của cách chúng tôi chọn để ước tính các hệ số hồi quy . Cách chúng tôi chọn ảnh hưởng đến các giá trị dự đoán của chúng tôi và do đó phần dư của chúng tôi . Nếu chúng tôi chọn bằng OLS, chúng tôi phải giải các phương trình bình thường và chúng thực thi rằng phần dư ước tính của chúng tôi không tương thích vớiεε^xβ^β^y^ε^=yy^β^ε^x . Sự lựa chọn của chúng tôi về ảnh hưởng đến chứ không phải và do đó không áp đặt điều kiện nào cho các lỗi thực sự . Sẽ là một sai lầm khi nghĩ rằng bằng cách nào đó đã "thừa hưởng" sự không tương quan của nó với từ giả định OLS rằng không được tương quan với . Sự không tương quan phát sinh từ các phương trình bình thường.β^y^E(y)ε=yE(y)ε^xεx


1
làm bạn hồi quy trung bình sử dụng dữ liệu dân số? Hay chính xác nó có nghĩa là gì? yi=β1+β2xi+εi
denizen của miền bắc

@ user1559897 Có, một số sách giáo khoa sẽ gọi đây là "đường hồi quy dân số" hoặc PRL. Đó là mô hình lý thuyết cơ bản cho dân số; bạn cũng có thể thấy điều này được gọi là "quá trình tạo dữ liệu" trong một số nguồn. (Tôi có xu hướng cẩn thận một chút khi nói đó là "hồi quy dân số" ... nếu bạn có dân số hữu hạn, ví dụ 50 tiểu bang của Hoa Kỳ, rằng bạn thực hiện hồi quy, thì điều này không hoàn toàn đúng Nếu bạn thực sự đang điều hành dân số trên một số dữ liệu trong phần mềm của mình, bạn thực sự đang nói về phiên bản ước tính của hồi quy, với "mũ")
Silverfish

Tôi nghĩ rằng tôi thấy những gì bạn đang nói. Nếu tôi hiểu bạn một cách chính xác, thuật ngữ lỗi trong mô hình cũng có thể có kỳ vọng khác không vì đó là quá trình tạo lý thuyết, không phải là hồi quy ols. yi=β1+β2xi+εi
denizen của miền bắc

Đây là một câu trả lời tuyệt vời từ quan điểm suy luận thống kê. Bạn nghĩ hiệu ứng sẽ thế nào nếu độ chính xác dự đoán là mối quan tâm chính? Xem chỉnh sửa của bài viết.
denizen của miền bắc

16

Ví dụ đơn giản:

  • Đặt là số bánh mì kẹp thịt tôi mua khi truy cậpxi,1i
  • Đặt là số bánh tôi mua.xi,2
  • Đặt là giá của một chiếc burgerb1
  • Đặt là giá của một cái bánh.b2
  • Không phụ thuộc vào việc mua burger và bun của tôi, hãy để tôi chi tiêu một số tiền ngẫu nhiên trong đó là vô hướng và là một biến ngẫu nhiên trung bình bằng không. Chúng tôi có .a+ϵiaϵiE[ϵi|X]=0
  • Hãy để là chi tiêu của tôi cho chuyến đi đến cửa hàng tạp hóa.yi

Quá trình tạo dữ liệu là:

yi=a+b1xi,1+b2xi,2+ϵi

Nếu chúng ta chạy hồi quy đó, chúng ta sẽ nhận được ước tính , và và với đủ dữ liệu, chúng sẽ hội tụ lần lượt trên , và .a^b^1b^2ab1b2

(Lưu ý kỹ thuật: Chúng tôi cần một chút ngẫu nhiên vì vậy chúng tôi không mua chính xác một chiếc bánh cho mỗi chiếc bánh burger chúng tôi mua mỗi lần đến cửa hàng tạp hóa. Nếu chúng tôi làm điều này, và sẽ được kết hợp .)x1x2

Một ví dụ về sai lệch biến bị bỏ qua:

Bây giờ hãy xem xét mô hình:

yi=a+b1xi,1+ui

Quan sát rằng . Do đó ui=b2xi,2+ϵi

Cov(x1,u)=Cov(x1,b2x2+ϵ)=b2Cov(x1,x2)+Cov(x1,ϵ)=b2Cov(x1,x2)

Đây có phải là số không? Hầu như chắc chắn là không! Việc mua bánh mì kẹp thịt và mua bánh gần như chắc chắn có mối tương quan với nhau! Do đó và có mối tương quan!x1x2ux1

Điều gì xảy ra nếu bạn cố chạy hồi quy?

Nếu bạn đã cố chạy:

yi=a^+b^1xi,1+u^i

Ước tính của bạn gần như chắc chắn là ước tính kém của vì ước tính hồi quy OLS sẽ được xây dựng sao cho và không tương thích trong mẫu của bạn. Nhưng thực tế có tương quan với trong dân số!b^1b1a^,b^,u^u^x1ux1

Điều gì sẽ xảy ra trong thực tế nếu bạn làm điều này? Ước tính của bạn giá của bánh mì kẹp thịt sẽ CŨNG đón giá của bánh. Giả sử mỗi lần bạn mua một chiếc burger 1 đô la, bạn có xu hướng mua một chiếc bánh mì 0,5 đô la (nhưng không phải lúc nào cũng vậy). Ước tính của bạn về giá của bánh mì kẹp thịt có thể là $ 1,40. Bạn sẽ chọn kênh burger và kênh bun trong ước tính của bạn về giá bánh burger.b^1


Tôi thích ví dụ bánh burger của bạn. Bạn đã giải thích vấn đề từ góc độ suy luận thống kê, tức là suy ra ảnh hưởng của burger đối với giá cả. Chỉ cần tự hỏi hiệu ứng sẽ là gì nếu tất cả những gì tôi quan tâm là dự đoán, tức là dự đoán MSE trên một tập dữ liệu thử nghiệm? Trực giác là nó sẽ không tốt như vậy, nhưng có lý thuyết nào để làm cho nó chính xác hơn không? (điều này giới thiệu nhiều sai lệch, nhưng ít phương sai hơn, do đó, hiệu ứng tổng thể không rõ ràng đối với tôi.)
denizen của miền bắc

1
@ user1559897 Nếu bạn chỉ quan tâm đến việc dự đoán chi tiêu, sau đó dự đoán chi tiêu bằng cách sử dụng số bánh mì kẹp thịt và ước tính b 1 là khoảng $ 1.40 công sức khá tốt. Nếu bạn có đủ dữ liệu, sử dụng số lượng bánh mì kẹp thịt bánh mì chắc chắn sẽ hoạt động tốt hơn. Trong các mẫu ngắn, L 1 thường xuyên (LASSO) có thể gửi một trong các hệ số b 1 hoặc b 2 về 0. Tôi nghĩ rằng bạn đang nhận ra một cách chính xác rằng những gì bạn đang làm trong hồi quy đang ước tính một hàm kỳ vọng có điều kiện. Quan điểm của tôi là chức năng đó để nắm bắt các hiệu ứng nhân quả, bạn cần các giả định bổ sung. b^1L1b1b2
Matthew Gunn

3

Giả sử rằng chúng ta đang xây dựng một hồi quy về trọng lượng của một con vật trên chiều cao của nó. Rõ ràng, trọng lượng của một con cá heo sẽ được đo khác nhau (trong quy trình khác nhau và sử dụng các dụng cụ khác nhau) từ trọng lượng của một con voi hoặc một con rắn. Điều này có nghĩa là các lỗi mô hình sẽ phụ thuộc vào chiều cao, tức là biến giải thích. Họ có thể phụ thuộc theo nhiều cách khác nhau. Ví dụ, có thể chúng ta có xu hướng đánh giá hơi cao trọng lượng của voi và đánh giá thấp con rắn, v.v.

Vì vậy, ở đây chúng tôi đã thiết lập rằng thật dễ dàng để kết thúc với một tình huống khi các lỗi có tương quan với các biến giải thích. Bây giờ, nếu chúng ta bỏ qua điều này và tiến hành hồi quy như thường lệ, chúng ta sẽ nhận thấy rằng hồi quy được không tương quan với ma trận thiết kế. Điều này là do, bằng cách thiết kế hồi quy buộc các phần dư không được sửa chữa. Lưu ý, cũng có không những sai sót , họ là những ước tínhlỗi. Vì vậy, bất kể các lỗi có tương quan hay không với các biến độc lập, các ước tính lỗi (phần dư) sẽ không được sửa chữa bằng cách xây dựng giải pháp phương trình hồi quy.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.