Tại sao các lỗi không được phân phối thông thường làm ảnh hưởng đến tính hợp lệ của các tuyên bố quan trọng của chúng tôi?

Có một giả định về tính quy tắc khi xem xét các mô hình OLS và đó là các lỗi được phân phối bình thường. Tôi đã duyệt qua Xác thực chéo và có vẻ như Y và X không phải theo thứ tự bình thường để các lỗi là bình thường. Câu hỏi của tôi là tại sao khi chúng tôi có lỗi không được phân phối thông thường thì tính hợp lệ của các tuyên bố quan trọng của chúng tôi bị xâm phạm? Tại sao khoảng tin cậy sẽ quá rộng hoặc hẹp?

— người dùng44278
nguồn

Tại sao khi chúng tôi có lỗi không được phân phối thông thường thì tính hợp lệ của các tuyên bố quan trọng của chúng tôi bị xâm phạm? Tại sao khoảng tin cậy sẽ quá rộng hoặc hẹp?

Các khoảng tin cậy được dựa trên cách tử số và mẫu số được phân phối theo thống kê t.

Với dữ liệu bình thường, tử số của thống kê t có phân phối chuẩn và phân phối bình phương của mẫu số (sau đó là phương sai) là bội số cụ thể của phân phối chi bình phương. Khi tử số và mẫu số cũng độc lập (như sẽ chỉ xảy ra với dữ liệu bình thường, do các quan sát là độc lập), toàn bộ thống kê có phân phối t.

$\frac{\hat \beta - \beta}{s_{\hat\beta}}$ $\beta$ $t$

Nếu dữ liệu từ một số phân phối khác, thống kê sẽ không có phân phối t. Ví dụ, nếu nó có đuôi nặng, phân bố t sẽ có xu hướng nhẹ hơn một chút (các quan sát bên ngoài ảnh hưởng đến mẫu số nhiều hơn tử số). Đây là một ví dụ. Trong cả hai trường hợp, biểu đồ cho 10.000 hồi quy:

nhập mô tả hình ảnh ở đây

$\beta=0$ $(-2,2)$

Khoảng thời gian 95% (bao gồm 95% độ dốc trong mẫu của chúng tôi) chạy từ -2.048 đến 2.048. Đối với dữ liệu thông thường, nó thực sự bao gồm 95,15% trong số 10000 mẫu dốc. Đối với dữ liệu sai lệch, nó bao gồm 99,91%.

— Glen_b -Reinstate Monica
nguồn

Phân phối nào bạn đã sử dụng cho phiên bản lệch và đuôi nặng?

— gung - Phục hồi Monica

t

$t$