Tại sao khi chúng tôi có lỗi không được phân phối thông thường thì tính hợp lệ của các tuyên bố quan trọng của chúng tôi bị xâm phạm? Tại sao khoảng tin cậy sẽ quá rộng hoặc hẹp?
Các khoảng tin cậy được dựa trên cách tử số và mẫu số được phân phối theo thống kê t.
Với dữ liệu bình thường, tử số của thống kê t có phân phối chuẩn và phân phối bình phương của mẫu số (sau đó là phương sai) là bội số cụ thể của phân phối chi bình phương. Khi tử số và mẫu số cũng độc lập (như sẽ chỉ xảy ra với dữ liệu bình thường, do các quan sát là độc lập), toàn bộ thống kê có phân phối t.
β^−βsβ^βt
Nếu dữ liệu từ một số phân phối khác, thống kê sẽ không có phân phối t. Ví dụ, nếu nó có đuôi nặng, phân bố t sẽ có xu hướng nhẹ hơn một chút (các quan sát bên ngoài ảnh hưởng đến mẫu số nhiều hơn tử số). Đây là một ví dụ. Trong cả hai trường hợp, biểu đồ cho 10.000 hồi quy:
β=0(−2,2)
Khoảng thời gian 95% (bao gồm 95% độ dốc trong mẫu của chúng tôi) chạy từ -2.048 đến 2.048. Đối với dữ liệu thông thường, nó thực sự bao gồm 95,15% trong số 10000 mẫu dốc. Đối với dữ liệu sai lệch, nó bao gồm 99,91%.