Tại sao chúng ta sử dụng phần dư để kiểm tra các giả định về lỗi trong hồi quy?


10

Giả sử rằng chúng ta có một mô hình .Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi

Hồi quy có một số giả định, chẳng hạn như các lỗi nên được phân phối bình thường với giá trị trung bình bằng 0 và phương sai không đổi. Tôi đã được dạy để kiểm tra các giả định này bằng cách sử dụng một biểu đồ QQ bình thường để kiểm tra tính bình thường của phần dư và một phần dư so với âm mưu được trang bị để kiểm tra xem phần dư có thay đổi không bằng không.ϵiei=YiY^i

Tuy nhiên, các thử nghiệm này là tất cả trên phần dư, không phải là lỗi.

Theo những gì tôi hiểu, các lỗi được định nghĩa là độ lệch của mỗi quan sát so với giá trị trung bình 'đúng' của chúng. Vì vậy, chúng ta có thể viết . Những lỗi này không thể được quan sát bởi chúng tôi. *ϵi=YiE[Yi]

Câu hỏi của tôi là: những người còn lại làm tốt như thế nào trong việc bắt chước các lỗi?

Nếu các giả định dường như được thỏa mãn trên phần dư, điều này có nghĩa là chúng cũng hài lòng về các lỗi không? Có cách nào khác (tốt hơn) để kiểm tra các giả định, như lắp mô hình vào bộ dữ liệu thử nghiệm và lấy phần dư từ đó không?


* Hơn nữa, điều này không yêu cầu mô hình được chỉ định chính xác ? Đó là, phản hồi thực sự có mối quan hệ với các yếu tố dự đoán v.v. theo cách được chỉ định bởi mô hình.X1,X2,

Nếu chúng ta thiếu một số dự đoán (giả sử ), thì kỳ vọng thậm chí sẽ không phải là giá trị trung bình thực và phân tích sâu hơn về một mô hình không chính xác dường như vô nghĩa.Xk+1 to XpE[Yi]=β0+β1Xi1+β2Xi2++βkXik

Làm thế nào để chúng ta kiểm tra xem mô hình có đúng không?

Câu trả lời:


9

Phần dư là ước tính của chúng tôi về các điều khoản lỗi

Câu trả lời ngắn cho câu hỏi này tương đối đơn giản: các giả định trong mô hình hồi quy là các giả định về hành vi của các điều khoản lỗi và phần dư là ước tính của chúng tôi về các điều khoản lỗi. Thực tế , việc kiểm tra hành vi của các phần dư được quan sát cho chúng ta biết liệu các giả định về các điều khoản lỗi có hợp lý hay không.

Để hiểu dòng lý luận chung này chi tiết hơn, nó giúp kiểm tra chi tiết hành vi của phần dư trong mô hình hồi quy chuẩn. Theo hồi quy tuyến tính đa tiêu chuẩn với các thuật ngữ lỗi bình thường homoskedastic độc lập, phân phối vectơ dư được biết, cho phép bạn kiểm tra các giả định phân phối cơ bản trong mô hình hồi quy. Ý tưởng cơ bản là bạn tìm ra phân phối của vectơ dư theo các giả định hồi quy, và sau đó kiểm tra xem các giá trị còn lại có khớp với phân phối lý thuyết này không. Các sai lệch so với phân phối dư lý thuyết cho thấy rằng phân phối giả định cơ bản của các điều khoản lỗi là sai ở một khía cạnh nào đó.

Nếu bạn sử dụng phân phối lỗi cơ bản cho mô hình hồi quy chuẩn và bạn sử dụng ước lượng OLS cho các hệ số, thì có thể hiển thị phân phối phần dư phân phối chuẩn nhiều biến số:ϵiIID N(0,σ2)

r=(Ih)ϵN(0,σ2(Ih)),

trong đó là ma trận mũ cho hồi quy. Vectơ dư bắt chước vectơ lỗi, nhưng ma trận phương sai có thuật ngữ nhân bổ sung . Để kiểm tra các giả định hồi quy, chúng tôi sử dụng phần dư được học sinh, có phân phối T cận biên:h=x(xTx)1xTIh

siriσ^Ext(1li)T(dfRes1).

(Công thức này dành cho phần dư được sinh viên bên ngoài, trong đó công cụ ước lượng phương sai loại trừ biến đang được xem xét. Các giá trị là các giá trị đòn bẩy, là các giá trị đường chéo trong ma trận mũ . độc lập, nhưng nếu lớn, chúng gần độc lập. Điều này có nghĩa là phân phối biên là phân phối đơn giản đã biết nhưng phân phối chung rất phức tạp.) Bây giờ, nếu giới hạn tồn tại, sau đó có thể chỉ ra rằng các công cụ ước tính hệ số là công cụ ước lượng nhất quán của các hệ số hồi quy thực và phần dư là công cụ ước lượng nhất quán của điều khoản lỗi đúng.li=hi,inlimn(xTx)/n=Δ

Về cơ bản, điều này có nghĩa là bạn kiểm tra các giả định phân phối cơ bản cho các điều khoản lỗi bằng cách so sánh các phần dư được học với phân phối T. Mỗi thuộc tính cơ bản của phân phối lỗi (tuyến tính, homoskedasticity, lỗi không tương quan, tính chuẩn) có thể được kiểm tra bằng cách sử dụng các thuộc tính tương tự của phân phối của phần dư được học. Nếu mô hình được chỉ định chính xác, thì đối với lớn , phần dư phải gần với các điều khoản lỗi thực sự và chúng có dạng phân phối tương tự.n

Bỏ sót một biến giải thích từ mô hình hồi quy dẫn đến sai lệch biến bị bỏ qua trong các ước lượng hệ số và điều này ảnh hưởng đến phân phối dư. Cả giá trị trung bình và phương sai của vectơ dư đều bị ảnh hưởng bởi biến bị bỏ qua. Nếu các thuật ngữ bị bỏ qua trong hồi quy là thì vectơ còn lại sẽ trở thành . Nếu các vectơ dữ liệu trong ma trận bị bỏ qua là các vectơ thông thường của IID và không phụ thuộc vào các điều khoản lỗi thìZδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I) để phân phối dư trở thành:

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

Nếu đã có một thuật ngữ chặn trong mô hình (nghĩa là, nếu vectơ đơn vị nằm trong ma trận thiết kế) thì1(Ih)1=0, có nghĩa là hình thức phân phối tiêu chuẩn của phần dư được bảo tồn. Nếu không có thuật ngữ chặn trong mô hình thì biến bị bỏ qua có thể mang lại giá trị trung bình khác không cho phần dư. Ngoài ra, nếu biến bị bỏ qua không phải là IID bình thường thì nó có thể dẫn đến các sai lệch khác so với phân phối dư chuẩn. Trong trường hợp sau này, các thử nghiệm còn lại không có khả năng phát hiện bất cứ điều gì do sự hiện diện của một biến bị bỏ qua; thông thường không thể xác định liệu các sai lệch so với phân phối dư lý thuyết xảy ra là kết quả của một biến bị bỏ qua hay chỉ đơn thuần là do mối quan hệ không chính xác với các biến được bao gồm (và có thể cho rằng đây là những điều tương tự trong mọi trường hợp).


1
Cảm ơn bạn đã phản hồi toàn diện. Tôi có thể hỏi nơi bạn có không? Dường như với tôi rằngr=(Ih)ϵr=YY^=(Ih)Y
mai

1
Vì bạn có sao cho . hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
Ben - Tái lập Monica

-4

Thông thường, các điều khoản còn lại và lỗi có nghĩa là điều tương tự. Nếu mô hình của bạn không có dự đoán, E (Y) thực sự là giá trị trung bình của Y. Với các yếu tố dự đoán (như trong mô hình của bạn), E (Y) là giá trị của Y dự đoán từ mỗi X. Vì vậy, phần dư là sự khác biệt giữa mỗi lần quan sát và dự đoán Y.


3
"Thông thường, các điều khoản còn lại và lỗi có nghĩa là điều tương tự." Tôi không nghĩ điều này là đúng - theo như tôi hiểu, phần dư đo lường sự khác biệt giữa giá trị quan sát và giá trị dự đoán, trong khi lỗi đo lường sự khác biệt giữa giá trị quan sát và giá trị trung bình thực.
mai

1
Nói đúng ra lỗi và phần dư không phải là từ đồng nghĩa. Cái trước là biến ngẫu nhiên, cái sau là nhận thức.
Richard Hardy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.