Trước khi giải quyết vấn đề này, điều quan trọng là phải thừa nhận rằng sai sót thống kê về "loại bỏ các ngoại lệ" đã được ban hành sai trong phần lớn các phương pháp sư phạm thống kê được áp dụng. Theo truyền thống, các ngoại lệ được định nghĩa là đòn bẩy cao, quan sát ảnh hưởng cao. Người ta có thể và nên xác định những quan sát như vậy trong phân tích dữ liệu, nhưng những điều kiện đó không đảm bảo loại bỏ những quan sát đó. Một "ngoại lệ thực sự" là một quan sát đòn bẩy cao / ảnh hưởng cao không phù hợp với các bản sao của thiết kế thử nghiệm. Để xem xét một quan sát như vậy đòi hỏi kiến thức chuyên môn về dân số đó và khoa học đằng sau "cơ chế tạo dữ liệu". Khía cạnh quan trọng nhất là bạn sẽ có thể xác định được các ngoại lệ tiềm năng apriori .
Đối với khía cạnh bootstrapping của mọi thứ, bootstrap có nghĩa là mô phỏng các bản vẽ độc lập, lặp đi lặp lại từ dân số lấy mẫu. Nếu bạn quy định tiêu chí loại trừ trong kế hoạch phân tích của mình, bạn vẫn nên để các giá trị loại trừ trong phân phối lấy mẫu bootstrap của người giới thiệu . Điều này là do bạn sẽ mất điện do áp dụng các loại trừ sau khi lấy mẫu dữ liệu của bạn. Tuy nhiên, nếu không có tiêu chí loại trừ được quy định trước và các ngoại lệ được loại bỏ bằng cách sử dụng xét xử hậu hoc , vì rõ ràng tôi đang chống lại, loại bỏ các giá trị này sẽ lan truyền các lỗi tương tự gây ra bởi việc loại bỏ các ngoại lệ.
Hãy xem xét một nghiên cứu về sự giàu có và hạnh phúc trong một mẫu ngẫu nhiên đơn giản không xác định gồm 100 người. Nếu chúng ta đưa ra tuyên bố, "1% dân số nắm giữ 90% tài sản của thế giới" theo nghĩa đen, thì chúng ta sẽ quan sát, trung bình, một giá trị có ảnh hưởng rất cao. Giả sử thêm rằng, ngoài chất lượng cuộc sống cơ bản, không có hạnh phúc dư thừa do thu nhập lớn hơn (xu hướng tuyến tính không quan trọng). Vì vậy, cá nhân này cũng là đòn bẩy cao.
Hệ số hồi quy bình phương nhỏ nhất phù hợp với dữ liệu không bị biến đổi ước tính dân số tính trung bình theo xu hướng thứ nhất trong các dữ liệu này. Nó bị suy giảm nặng nề bởi 1 cá nhân của chúng tôi trong mẫu có hạnh phúc phù hợp với những người gần mức thu nhập trung bình. Nếu chúng ta loại bỏ cá thể này, độ dốc hồi quy bình phương nhỏ nhất lớn hơn nhiều, nhưng phương sai của biến hồi quy giảm, do đó suy luận về liên kết là gần như nhau. Khó khăn khi làm điều này là tôi đã không quy định trước các điều kiện trong đó các cá nhân sẽ bị loại trừ. Nếu một nhà nghiên cứu khác sao chép thiết kế nghiên cứu này, họ sẽ lấy mẫu trung bình một người có thu nhập cao, cá nhân hạnh phúc vừa phải và thu được kết quả không phù hợp với kết quả "cắt xén" của tôi.
Nếu chúng ta apriori quan tâm đến các hiệp hội hạnh phúc thu nhập vừa phải, sau đó chúng ta nên đã xác định trước rằng chúng ta sẽ, ví dụ: "so sánh cá nhân có thu nhập hộ gia đình hàng năm ít hơn $ 100,000". Vì vậy, loại bỏ các ngoại lệ khiến chúng ta ước tính một liên kết mà chúng ta không thể mô tả, do đó các giá trị p là vô nghĩa.
Mặt khác, các thiết bị y tế bị tính toán sai và các cuộc điều tra tự báo cáo có thể bị loại bỏ. Chính xác hơn là các tiêu chí loại trừ có thể được mô tả trước khi phân tích thực tế diễn ra, kết quả phân tích như vậy sẽ hợp lệ và nhất quán hơn.