Phần dư là ước tính của chúng tôi về các điều khoản lỗi
Câu trả lời ngắn cho câu hỏi này tương đối đơn giản: các giả định trong mô hình hồi quy là các giả định về hành vi của các điều khoản lỗi và phần dư là ước tính của chúng tôi về các điều khoản lỗi. Thực tế , việc kiểm tra hành vi của các phần dư được quan sát cho chúng ta biết liệu các giả định về các điều khoản lỗi có hợp lý hay không.
Để hiểu dòng lý luận chung này chi tiết hơn, nó giúp kiểm tra chi tiết hành vi của phần dư trong mô hình hồi quy chuẩn. Theo hồi quy tuyến tính đa tiêu chuẩn với các thuật ngữ lỗi bình thường homoskedastic độc lập, phân phối vectơ dư được biết, cho phép bạn kiểm tra các giả định phân phối cơ bản trong mô hình hồi quy. Ý tưởng cơ bản là bạn tìm ra phân phối của vectơ dư theo các giả định hồi quy, và sau đó kiểm tra xem các giá trị còn lại có khớp với phân phối lý thuyết này không. Các sai lệch so với phân phối dư lý thuyết cho thấy rằng phân phối giả định cơ bản của các điều khoản lỗi là sai ở một khía cạnh nào đó.
Nếu bạn sử dụng phân phối lỗi cơ bản cho mô hình hồi quy chuẩn và bạn sử dụng ước lượng OLS cho các hệ số, thì có thể hiển thị phân phối phần dư phân phối chuẩn nhiều biến số:ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
trong đó là ma trận mũ cho hồi quy. Vectơ dư bắt chước vectơ lỗi, nhưng ma trận phương sai có thuật ngữ nhân bổ sung . Để kiểm tra các giả định hồi quy, chúng tôi sử dụng phần dư được học sinh, có phân phối T cận biên:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(Công thức này dành cho phần dư được sinh viên bên ngoài, trong đó công cụ ước lượng phương sai loại trừ biến đang được xem xét. Các giá trị là các giá trị đòn bẩy, là các giá trị đường chéo trong ma trận mũ . độc lập, nhưng nếu lớn, chúng gần độc lập. Điều này có nghĩa là phân phối biên là phân phối đơn giản đã biết nhưng phân phối chung rất phức tạp.) Bây giờ, nếu giới hạn tồn tại, sau đó có thể chỉ ra rằng các công cụ ước tính hệ số là công cụ ước lượng nhất quán của các hệ số hồi quy thực và phần dư là công cụ ước lượng nhất quán của điều khoản lỗi đúng.li=hi,inlimn→∞(xTx)/n=Δ
Về cơ bản, điều này có nghĩa là bạn kiểm tra các giả định phân phối cơ bản cho các điều khoản lỗi bằng cách so sánh các phần dư được học với phân phối T. Mỗi thuộc tính cơ bản của phân phối lỗi (tuyến tính, homoskedasticity, lỗi không tương quan, tính chuẩn) có thể được kiểm tra bằng cách sử dụng các thuộc tính tương tự của phân phối của phần dư được học. Nếu mô hình được chỉ định chính xác, thì đối với lớn , phần dư phải gần với các điều khoản lỗi thực sự và chúng có dạng phân phối tương tự.n
Bỏ sót một biến giải thích từ mô hình hồi quy dẫn đến sai lệch biến bị bỏ qua trong các ước lượng hệ số và điều này ảnh hưởng đến phân phối dư. Cả giá trị trung bình và phương sai của vectơ dư đều bị ảnh hưởng bởi biến bị bỏ qua. Nếu các thuật ngữ bị bỏ qua trong hồi quy là thì vectơ còn lại sẽ trở thành . Nếu các vectơ dữ liệu trong ma trận bị bỏ qua là các vectơ thông thường của IID và không phụ thuộc vào các điều khoản lỗi thìZδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) để phân phối dư trở thành:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
Nếu đã có một thuật ngữ chặn trong mô hình (nghĩa là, nếu vectơ đơn vị nằm trong ma trận thiết kế) thì1(I−h)1=0, có nghĩa là hình thức phân phối tiêu chuẩn của phần dư được bảo tồn. Nếu không có thuật ngữ chặn trong mô hình thì biến bị bỏ qua có thể mang lại giá trị trung bình khác không cho phần dư. Ngoài ra, nếu biến bị bỏ qua không phải là IID bình thường thì nó có thể dẫn đến các sai lệch khác so với phân phối dư chuẩn. Trong trường hợp sau này, các thử nghiệm còn lại không có khả năng phát hiện bất cứ điều gì do sự hiện diện của một biến bị bỏ qua; thông thường không thể xác định liệu các sai lệch so với phân phối dư lý thuyết xảy ra là kết quả của một biến bị bỏ qua hay chỉ đơn thuần là do mối quan hệ không chính xác với các biến được bao gồm (và có thể cho rằng đây là những điều tương tự trong mọi trường hợp).