Giả định đồng nhất trong hồi quy tuyến tính so với khái niệm về số dư sinh viên

Đã đọc về phần dư sinh viên tôi không hiểu làm thế nào ý tưởng về các phương sai còn lại khác nhau có điều kiện trên các giá trị nhất định của một yếu tố dự đoán $X$ (theo ngụ ý của khái niệm dư sinh viên) không phải là xung đột với giả định về tính đồng nhất trong các mô hình hồi quy tuyến tính với một biến dự báo duy nhất.

Nó nói trong sách giáo khoa của tôi rằng giả định về tính đồng nhất có nghĩa là phương sai của (biến phụ thuộc) có điều kiện trên (một nhận thức nhất định của biến dự báo độc lập) không đổi trong phạm vi giá trị của yếu tố dự đoán này. Phương sai điều kiện này, nó nói, cũng bằng phương sai điều kiện của biến dư cho một cho trước . Theo hiểu biết của tôi đây là một tuyên bố ở cấp độ dân số. Cùng nhau đó sẽ là: $Y$ $X = x$ $\varepsilon$ $x$

$Var(Y|X) = Var(\varepsilon|X) = \sigma^2_\varepsilon$

Sau đó, cuốn sách đề cập đến việc phát hiện các ngoại lệ trong biến phụ thuộc và đề nghị sử dụng phần dư được chuẩn hóa và học sinh. Phần dư được chuẩn hóa là phần dư riêng lẻ chia cho độ lệch chuẩn ước tính của biến dư trong dân số. Trong trường hợp phần dư được chuẩn hóa, mỗi phần dư được tiêu chuẩn hóa bằng cách sử dụng cùng một giá trị không đổi nếu có thể giả sử tính đồng nhất: $\varepsilon_i$ $\hat\sigma_\varepsilon$ $\varepsilon_i$ $\hat\sigma_\varepsilon$

$Stand.Res_i = \frac{\varepsilon_i}{\hat\sigma_\varepsilon}$ .

Tuy nhiên, trong đoạn tiếp theo, phần dư sinh viên được giới thiệu. Cuốn sách nói: "Có thể chỉ ra rằng độ chính xác của ước lượng phần dư tăng theo khoảng cách so với giá trị trung bình của nó . Trong trường hợp phần dư được học sinh, phần dư không được chia cho sai số chuẩn ước tính chung của chúng nhưng theo độ lệch chuẩn ước tính của phần dư tại vị trí . Độ lệch chuẩn này có thể thu được từ công thức này: $x_i$ $\bar x$ $x_i$

$Student.Res_i = \frac{\varepsilon_i }{\hat\sigma_\varepsilon \cdot \sqrt {1-h_i}}$

với là điểm số đòn bẩy của một công cụ dự đoán (trong trường hợp đơn giản này: số ít) . Vì vậy, dường như trong trường hợp này, phần dư không được chia cho cùng một giá trị không đổi (giống như trong trường hợp phần dư được chuẩn hóa) mà thay vào đó là sự phân phối các lỗi tiêu chuẩn còn lại phụ thuộc vào các giá trị đòn bẩy. Các giá trị đòn bẩy này lớn hơn ở cuối cực của biến dự đoán như đã được giải thích trong các câu hỏi khác trên trang web này. Trên Wikipedia ( https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions ) có ghi: $h_i$ $x_i$

Trong phân tích hồi quy, sự khác biệt giữa sai số và phần dư là tinh tế và quan trọng, và dẫn đến khái niệm về phần dư sinh viên. Cho một hàm không quan sát được có liên quan đến biến độc lập với biến phụ thuộc - giả sử, một dòng - độ lệch của các quan sát biến phụ thuộc từ hàm này là các lỗi không quan sát được. Nếu một người chạy hồi quy trên một số dữ liệu, thì độ lệch của các quan sát biến phụ thuộc từ hàm được trang bị là phần dư. [...] Tuy nhiên, do hành vi của quá trình hồi quy, phân phối phần dư tại các điểm dữ liệu khác nhau (của biến đầu vào) có thể khác nhau ngay cả khi chính các lỗi được phân phối giống hệt nhau. Cụ thể, trong một hồi quy tuyến tính, nơi các lỗi được phân phối giống hệt nhau, độ biến thiên của phần dư của đầu vào ở giữa miền sẽ cao hơn độ biến thiên của phần dư ở cuối miền [cần dẫn nguồn]: hồi quy tuyến tính phù hợp với điểm cuối tốt hơn giữa. Điều này cũng được phản ánh trong các hàm ảnh hưởng của các điểm dữ liệu khác nhau trên các hệ số hồi quy: điểm cuối có ảnh hưởng nhiều hơn.

Trong khi điều này có ý nghĩa với tôi bằng trực giác, tôi hoàn toàn không hiểu làm thế nào nó không mâu thuẫn với giả định về tính đồng nhất. Có phải vì ở cấp độ dân số, phương sai lỗi có thể bằng với tất cả các cấp nhưng khi chúng tôi ước tính phương sai lỗi đó bằng cách khớp một đường hồi quy (để sau đó chúng tôi có thể sử dụng phần dư làm ước tính của các lỗi ở cấp độ dân số), chúng tôi sẽ tự động và giả tạo tạo ra một phân phối độ lệch chuẩn còn lại có điều kiện trên $X$ $X$ thay vì có độ lệch chuẩn còn lại là giá trị số ít bằng nhau cho mỗi phần dư? Vì vậy, điều đó có nghĩa là phần dư được chuẩn hóa chỉ thực sự hữu ích ở cấp độ dân số (không quan sát được), phải không? Bởi vì đối với một mẫu nhất định, phần dư được chuẩn hóa có thể là một công cụ ước tính chính xác cho tất cả các giá trị khác xa đơn giản là do cách mô hình hồi quy được trang bị? $x_i$ $\bar x$

Tuy nhiên, nếu đó là trường hợp tôi không hiểu khuyến nghị mà tôi đã đọc ở rất nhiều nơi để kiểm tra tính đồng nhất bằng cách vẽ các phần dư được học sinh dựa vào biến dự đoán và kiểm tra xem phương sai của phần dư sẽ bằng nhau ở mọi cấp độ . Nếu trong một đường hồi quy được trang bị, phương sai của phần dư có thể khác nhau đối với các mức khác nhau (theo tôi nghĩ khái niệm về phần dư được học sinh và đoạn trích từ Wikipedia ngụ ý) làm thế nào có ý nghĩa rằng mọi người đều khuyên nên kiểm tra sự bằng nhau của phương sai dư bằng cách sử dụng các biểu đồ tán xạ của phần dư sinh viên so với mức của yếu tố dự đoán ? Ai đó có thể vui lòng chỉ ra những sai lầm tôi đang làm ở đây? $X$ $X$ $X$ $X$

Tôi có trộn lẫn các giá trị lỗi và dư hoặc dân số và mức mẫu không? Tôi đã tìm kiếm khắp nơi và không thể tìm thấy câu trả lời thỏa mãn nào thảo luận tại sao đây không phải là một cuộc xung đột (hoặc ít nhất là không có gì tôi hiểu). Cảm ơn trước!

— dgks
nguồn

Tôi không thực sự hiểu sự nhầm lẫn của bạn, nhưng hãy để tôi thử xem. Xem xét hồi quy tuyến tính

y = X β + ε

$y=X\beta+\varepsilon$ có lỗi

ε

$\varepsilon$ và dư

e := y - X \hat{β} = (I - H) y

$e:=y-X\hat\beta=(I-H)y$ Ở đâu

I

$I$ là một ma trận danh tính và

H := X (X^{⊤} X)^{- 1} X^{⊤}

$H:=X(X^\top X)^{-1}X^\top$ là ma trận mũ. Giả sử mô hình tuyến tính được chỉ định chính xác và tất cả các giả định, bao gồm cả lỗi đồng nhất vô điều kiện và có điều kiện đều được đáp ứng.

Trong khi $\varepsilon$ là homoskedastic bởi giả định tôi vừa giới thiệu, phần dư mô hình $e$ là điều kiện không đồng nhất với mức độ của $X$ : phương sai của chúng có thể được hiển thị là $\text{Var}(e)=\sigma^2_\varepsilon(I-H)$ . Đây là một tạo tác của ước lượng OLS trong mô hình tuyến tính.

Bây giờ giả sử bạn không biết liệu tất cả các giả định có được đáp ứng hay không (đó là viễn cảnh thực tế) và bạn muốn kiểm tra chúng. Bạn có thể sẽ bị cám dỗ để sử dụng phần dư $e$ thay cho các lỗi không quan sát được $\varepsilon$ để làm chẩn đoán mô hình, ví dụ đánh giá giả định về tính đồng nhất có điều kiện của $\varepsilon$ . Thật không may, một homoskedastic có điều kiện $\varepsilon$ chuyển thành một dị thể có điều kiện $e$ được chứng minh bằng công thức phương sai ở trên. Do đó, bạn không thể tìm hiểu nhiều về tính đồng nhất có điều kiện của $\varepsilon$ bằng cách kiểm tra sự thay đổi trong $e$ so với $X$ .

Nhưng có một phương thuốc. Bạn có thể điều chỉnh biến dạng phương sai trong $e$ bằng cách "hoàn tác" tỷ lệ do nhân $(I-H)$ trong $e$ . Điều này dẫn đến số dư sinh viên (bên trong hoặc bên ngoài) $\tilde{e}_{int}:=\frac{e}{\hat\sigma_{int}\sqrt{1-h_{ii}}}$ hoặc là $\tilde{e}_{ext}:=\frac{e}{\hat\sigma_{ext}\sqrt{1-h_{ii}}}$ Ở đâu $\hat\sigma_{int}$ và $\hat\sigma_{ext}$ là ước tính bên trong và bên ngoài của phương sai lỗi, tương ứng. Sinh viên của phần dư cho phép đưa phần dư trở về cùng mức phương sai có điều kiện như các lỗi mô hình không quan sát được $\varepsilon$ là, cho đến một hệ số tỷ lệ đồng nhất trên các điểm dữ liệu và do đó không ảnh hưởng đến tính đồng nhất có điều kiện hoặc không đồng nhất có điều kiện.

Đây là lý do tại sao nó có ý nghĩa để sử dụng dư sinh viên $\tilde{e}$ thay cho phần dư $e$ khi đánh giá độ không đồng nhất có điều kiện của các lỗi mô hình $\varepsilon$ viết cho người hồi quy $X$ .

— Richard Hardy
nguồn