Những lợi thế nào mà các phần còn lại được sinh viên nội bộ cung cấp với các phần dư ước tính thô về mặt chẩn đoán các dữ liệu ảnh hưởng tiềm năng?


10

Lý do tôi hỏi điều này là bởi vì dường như phần dư sinh viên nội bộ dường như có mô hình giống như phần dư ước tính thô. Sẽ thật tuyệt nếu ai đó có thể đưa ra một lời giải thích.

Câu trả lời:


13

Giả sử mô hình hồi quy với ma trận thiết kế ( cột a theo sau là các yếu tố dự đoán của bạn), dự đoán (trong đó là "ma trận mũ") và phần dư . Mô hình hồi quy giả định rằng các lỗi thực sự đều có cùng phương sai (homoskedasticity):y=Xβ+ϵX1y^=X(XX)1Xy=HyHe=yy^ϵ

tính đồng nhất

Ma trận hiệp phương sai của phần dư là . Điều này có nghĩa là phần dư thô có các phương sai khác nhau - đường chéo của ma trận . Các phần tử đường chéo của là các giá trị mũ .V(e)=σ2(IH)eiσ2(1hii)σ2(IH)Hhii

Do đó, phần dư được chuẩn hóa thực sự với phương sai 1 trong suốt là do đó . Vấn đề là phương sai lỗi không xác định và phần dư sinh viên bên trong / bên ngoài từ các lựa chọn cụ thể cho ước tính .e/(σ1hii)σ e/(σ^1hii)σ^

Vì phần dư thô dự kiến ​​sẽ không đồng nhất ngay cả khi là homoskedastic, nên phần dư thô về mặt lý thuyết không phù hợp để chẩn đoán các vấn đề với giả định homoskedasticity so với phần dư được chuẩn hóa hoặc học sinh.ϵ


Sự khác biệt xác định giữa hai loại dư khác nhau (cũng như dư lượng sinh viên bên ngoài) là rõ ràng đối với tôi. Tuy nhiên, trên thực tế, tôi không nghĩ rằng tôi đã gặp phải các trường hợp (ít nhất là với dữ liệu của riêng tôi) trong đó phần dư sinh viên nội bộ có một mô hình khác biệt so với phần dư ước tính. Mặt khác, phần dư sinh viên bên ngoài có khả năng thể hiện một mô hình khác biệt so với phần dư ước tính. * Tôi không nói rằng hai loại dư là như nhau. Tôi đang đề cập đến mô hình chung của họ.

@AlexH. Tôi đồng ý rằng lợi thế đã nêu tôi đã thêm vào là lý thuyết . Xây dựng một tình huống thực nghiệm mô phỏng trong đó phần dư thô là sai lệch, và phần dư sinh viên cung cấp một bức tranh chính xác hơn về các bản phân phối có điều kiện sẽ là một bổ sung tốt.
caracal

12

Những loại dữ liệu bạn đã thực hiện lô thử nghiệm của bạn trên? Khi tất cả các giả định giữ (hoặc đến gần) thì tôi sẽ không mong đợi nhiều sự khác biệt giữa phần dư và học sinh, lợi thế chính là khi có những điểm có ảnh hưởng lớn. Xem xét dữ liệu (mô phỏng) này có xu hướng tuyến tính tích cực và ngoại lệ có ảnh hưởng lớn:

nhập mô tả hình ảnh ở đây

Dưới đây là biểu đồ của các giá trị được trang bị so với phần dư:

nhập mô tả hình ảnh ở đây

Lưu ý rằng giá trị của phần dư của điểm ảnh hưởng của chúng ta gần bằng 0 hơn phần dư tối thiểu và tối đa từ các điểm còn lại (nó không nằm trong 3 phần dư cực nhất).

Bây giờ đây là cốt truyện với phần dư được chuẩn hóa (nội bộ học sinh):

nhập mô tả hình ảnh ở đây

Trong cốt truyện này, phần dư được chuẩn hóa nổi bật vì ảnh hưởng của nó đã được tính đến.

Trong ví dụ đơn giản này, thật dễ dàng để xem điều gì đang xảy ra, nhưng nếu chúng ta có nhiều hơn 1 biến và một điểm có ảnh hưởng rất lớn, nhưng không phải là bất thường trong các ô 2 chiều thì sao? Không rõ ràng từ các lô dư, nhưng phần dư được học sinh sẽ cho thấy phần dư càng cực đoan hơn.x

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.