Trong hồi quy tuyến tính, tại sao các bình phương nhỏ nhất còn lại không đồng nhất heteroskedastic?


7

Trong khóa học của tôi ghi chú về một khóa hồi quy liên quan đến việc phát hiện tính không đồng nhất có trích dẫn sau:

"Bởi vì phần dư bình phương nhỏ nhất có phương sai không bằng nhau ngay cả trong trường hợp homoscedastic, nên sử dụng phần dư được tiêu chuẩn hóa."

Trực giác của tôi cho tôi biết rằng vì đường hồi quy LS nhất thiết phải đi qua trung tâm của datacloud, nó sẽ phù hợp hơn cho các điểm ở giữa không gian đồng biến so với đuôi, do đó cho chúng ta phương sai lớn hơn ở các cực trị.

Mặc dù vậy, điều này dường như không cần thiết . Và đồng thời tôi tự hỏi về lý do tại sao chúng ta quan tâm đến tính đồng nhất trên các phần dư được chuẩn hóa hoặc học sinh mà không phải cho các phần thô.


3
Đối với phần dư, phương sai nhỏ hơn ở cực trị. Điều này là do các quan sát cực đoan hơn có ảnh hưởng nhiều hơn đến hàm hồi quy. ('cực hơn' = xa hơn từ trung bình trong không gian x, được đo bằng khoảng cách của Mahalanobis) [Các công thức cụ thể có nguồn gốc dễ dàng hoặc có thể được tìm thấy trong các câu trả lời khác trên trang web.]
Glen_b -Reinstate Monica

Câu trả lời có thể được tìm thấy ở đây: stats.stackexchange.com/questions/212656/ Ấn
kjetil b halvorsen

1
Có một dẫn xuất của phương sai của phần dư cho trường hợp hồi quy bội và một số giải thích bổ sung ở đây
Glen_b -Reinstate Monica

Câu trả lời:


4

Giả sử mô hình tuyến tính thông thường có phương sai không đổi . Tôi sẽ sử dụng ký hiệu (và một số kết quả) từ Đòn bẩy và tác dụng của các điểm đòn bẩy . Mô hình tuyến tính ở dạng ma trận là trong đó là một vectơ của các thuật ngữ lỗi iid. Khi đó, ma trận mũ là và các điều khoản đường chéo của nó là các đòn bẩy . Chúng ta có thể chứng minh rằng phương sai của các số dư là (nhớ ). σ2

Y=Xβ+ϵ
ϵnH=X(XTX)1XT hiiei=yiyi^σ2(1hii)0<hii<1

Vì vậy, trong mô hình này, để có số dư phương sai không đổi, chúng ta chia cho : phần dư được chuẩn hóa được xác định bởi có phương sai không đổi. Vì vậy, đối với nhiều mục đích sử dụng trong phân tích phần dư, chúng tôi thích phần dư được tiêu chuẩn hóa này, ví dụ như trong việc kiểm tra giả định về phương sai không đổi.1hiiri=yiy^i1hii

EDIT

Trong một bình luận OP viết:

Theo như tôi biết thì giả định chính thức không phải là "tính đồng nhất của phần dư được chuẩn hóa", mà chỉ là phần dư của chính nó.

Điều này nhầm lẫn lỗi với phần dư . Các lỗi là không quan sát được trong phương trình hồi quy , trong khi dư là sự khác biệt quan sát được giữa quan sát và mô hình dự đoán. Homoskedastcity có nghĩa là tất cả các lỗi đều có cùng phương sai, không phải là phần dư có phương sai không đổi. Nếu bạn muốn sử dụng phần dư để kiểm tra / phê bình giả định phương sai không đổi, tốt hơn là sử dụng một phiên bản của phần dư có phương sai không đổi (theo mô hình.)ϵiyi=β0+iβixi+ϵi


Liên quan đến phần thứ hai của câu hỏi của tôi, tôi có thể hiểu tại sao việc sử dụng phần dư được tiêu chuẩn hóa lại thuận tiện hơn, nhưng câu hỏi của tôi tôi cho là trừu tượng hơn: tại sao tính không đồng nhất tự nhiên không làm phiền chính điều kiện Gauss-Markov của chúng tôi và ước tính lỗi tiêu chuẩn . Theo như tôi biết thì giả định chính thức không phải là "tính đồng nhất của phần dư được chuẩn hóa", mà chỉ là phần dư của chính nó. Không phải chúng ta chỉ "che mặt trời bằng một ngón tay" sao?
Kuku

1

Giả sử bạn có ba giá trị :x1,0,+1.

Các biến phụ thuộc tương ứng là nơi có tính ngẫu nhiên.Y1,Y2,Y3

Bây giờ vẽ hình. Bạn có thể thấy lý do tại sao, nếu bạn di chuyển lên hoặc xuống, dòng được trang bị sẽ di chuyển lên hoặc xuống. (Chỉ so với di chuyển.) Nhưng điều gì xảy ra nếu bạn di chuyển lên hoặc xuống? Đường được trang bị không chỉ di chuyển lên hoặc xuống; độ dốc của nó cũng trở nên lớn hơn hoặc nhỏ hơn. Hoặc nếu bạn di chuyển lên hoặc xuống, thì độ dốc sẽ nhỏ hơn hoặc lớn hơn, tương ứng. Vì vậy, dòng có xu hướng ở gần điểm dữ liệu hơn khi giá trị của điểm dữ liệu nằm xa giá trị trung bình so với khi nó ở gần giá trị trung bình . Do đó dư quan sát được có một sai nhỏ hơn khi -giá trị là xa mức trung bìnhY21/3Y2Y3Y1xxxxx -value so với khi giá trị gần với giá trị trung bình .xx

Các giá trị được trang bị là Vì vậy, phần dư là Từ đây, người ta có thể tính toán phương sai của phần dư.

(Y^1,Y^2,Y^3)=(23Y1+13Y2,13(Y1+Y2+Y3),13Y2+23Y3).
(Y1,Y2,Y3)(Y^1,Y^2,Y^3)=(13Y113Y2,23Y1+23Y223Y3,13Y2+13Y3).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.