Bạn đang kết hợp hai loại thuật ngữ "lỗi". Wikipedia thực sự có một bài viết dành cho sự khác biệt này giữa lỗi và phần dư .
Trong hồi quy OLS, phần dư (ước tính của bạn về lỗi hoặc thời hạn xáo trộn) thực sự được đảm bảo không tương quan với các biến dự đoán, giả sử hồi quy có chứa thuật ngữ chặn.ε^
Nhưng các lỗi "đúng" có thể tương quan với chúng và đây là những gì được coi là nội sinh.ε
Để đơn giản, hãy xem xét mô hình hồi quy (bạn có thể thấy mô hình này được mô tả là " quy trình tạo dữ liệu " cơ bản hoặc "DGP", mô hình lý thuyết mà chúng tôi giả định để tạo ra giá trị của ):y
yi=β1+β2xi+εi
Về nguyên tắc, không có lý do nào, tại sao không thể tương quan với trong mô hình của chúng tôi, tuy nhiên chúng tôi muốn nó không vi phạm các giả định OLS tiêu chuẩn theo cách này. Ví dụ, có thể là phụ thuộc vào một biến khác đã bị bỏ qua khỏi mô hình của chúng tôi và điều này đã được đưa vào thuật ngữ xáo trộn ( là nơi chúng ta gộp lại tất cả những thứ khác ngoài ảnh hưởng đến ). Nếu biến bị bỏ qua này cũng tương quan với , thì sẽ lần lượt tương quan với và chúng ta có tính nội sinh (đặc biệt là độ lệch biến bị bỏ qua ).xεyεxyxεx
Khi bạn ước tính mô hình hồi quy của mình trên dữ liệu có sẵn, chúng tôi sẽ nhận được
yi=β^1+β^2xi+ε^i
Do cách thức hoạt động của OLS *, phần dư sẽ không tương thích với . Nhưng điều đó không có nghĩa là chúng tôi đã tránh được tính nội sinh - điều đó chỉ có nghĩa là chúng tôi không thể phát hiện ra nó bằng cách phân tích mối tương quan giữa và , sẽ là (lỗi đến số). Và vì các giả định của OLS đã bị vi phạm, chúng tôi không còn được đảm bảo các thuộc tính tốt, chẳng hạn như không thiên vị, chúng tôi rất thích về OLS. Ước tính của chúng tôi sẽ bị sai lệch.ε^ ε x β 2xε^xβ^2
Ε x(∗) Thực tế là không tương thích với ngay sau "phương trình bình thường" mà chúng ta sử dụng để chọn ước tính tốt nhất cho các hệ số.ε^x
Nếu bạn không quen với cài đặt ma trận và tôi dính vào mô hình bivariate được sử dụng trong ví dụ của tôi ở trên, thì tổng số dư bình phương là và để tìm ra tối ưu và , chúng tôi tìm ra phương trình bình thường, trước tiên là đầu tiên -Điều kiện đặt hàng cho đánh chặn ước tính:b 1 = β 1 b 2 = β 2S(b1,b2)=∑ni=1ε2i=∑ni=1(yi−b1−b2xi)2b1=β^1b2=β^2
∂S∂b1=∑i=1n−2(yi−b1−b2xi)=−2∑i=1nε^i=0
cho thấy tổng (và do đó có nghĩa là) của phần dư bằng 0, do đó, công thức cho hiệp phương sai giữa và bất kỳ biến sau đó giảm xuống . Chúng tôi thấy điều này bằng không bằng cách xem xét điều kiện đặt hàng đầu tiên cho độ dốc ước tính, đó là x1ε^x1n−1∑ni=1xiε^i
∂S∂b2=∑i=1n−2xi(yi−b1−b2xi)=−2∑i=1nxiε^i=0
Nếu bạn đã quen làm việc với ma trận, chúng ta có thể khái quát hóa điều này thành hồi quy bội bằng cách xác định ; điều kiện đặt hàng đầu tiên để giảm thiểu ở mức tối ưu là:S ( b ) b = βS(b)=ε′ε=(y−Xb)′(y−Xb)S(b)b=β^
dSdb(β^)=ddb(y′y−b′X′y−y′Xb+b′X′Xb)∣∣∣b=β^=−2X′y+2X′Xβ^=−2X′(y−Xβ^)=−2X′ε^=0
Điều này hàm ý mỗi hàng của và do đó mỗi cột của , trực giao với . Sau đó, nếu ma trận thiết kế có một cột của cột (xảy ra nếu mô hình của bạn có thuật ngữ chặn), chúng ta phải có để phần dư có tổng bằng 0 và không có nghĩa . Hiệp phương sai giữa và bất kỳ biến lại là và với bất kỳ biến có trong mô hình của chúng tôi, chúng tôi biết tổng này bằng không, bởi vìX′Xε^X∑ni=1ε^i=0ε^x1n−1∑ni=1xiε^ixε^là trực giao với mỗi cột của ma trận thiết kế. Do đó, không có hiệp phương sai và không tương quan, giữa và bất kỳ biến dự đoán .ε^x
Nếu bạn thích một cái nhìn hình học hơn về mọi thứ , mong muốn của chúng tôi rằng nằm càng gần càng tốt với theo kiểu Pythagore , và thực tế là bị giới hạn trong không gian cột của ma trận thiết kế , ra lệnh rằng phải là hình chiếu trực giao của quan sát được lên không gian cột đó. Do đó, vectơ của phần dư là trực giao với mọi cột của , bao gồm cả vectơ củay^y y^Xy^yε^=y−y^X1nnếu một thuật ngữ chặn được bao gồm trong mô hình. Như trước đây, điều này hàm ý tổng số dư là 0, do đó tính trực giao của vectơ còn lại với các cột khác của đảm bảo nó không tương thích với từng dự đoán đó.X
Nhưng không có gì chúng tôi đã làm ở đây nói bất cứ điều gì về các lỗi thực sự . Giả sử có một thuật ngữ chặn trong mô hình của chúng tôi, phần dư chỉ không tương thích với là kết quả toán học của cách chúng tôi chọn để ước tính các hệ số hồi quy . Cách chúng tôi chọn ảnh hưởng đến các giá trị dự đoán của chúng tôi và do đó phần dư của chúng tôi . Nếu chúng tôi chọn bằng OLS, chúng tôi phải giải các phương trình bình thường và chúng thực thi rằng phần dư ước tính của chúng tôi không tương thích vớiεε^xβ^β^y^ε^=y−y^β^ε^x . Sự lựa chọn của chúng tôi về ảnh hưởng đến chứ không phải và do đó không áp đặt điều kiện nào cho các lỗi thực sự . Sẽ là một sai lầm khi nghĩ rằng bằng cách nào đó đã "thừa hưởng" sự không tương quan của nó với từ giả định OLS rằng không được tương quan với . Sự không tương quan phát sinh từ các phương trình bình thường.β^y^E(y)ε=y−E(y)ε^xεx