Nhận xét của @Jerome Baum là tại chỗ. Để mang báo giá Gelman ở đây:
Phát hiện ngoại lệ có thể là một điều tốt. Vấn đề là những người không phải là người thống kê dường như thích bám vào từ đó, ngoại trừ mà không cố gắng nghĩ về quá trình tạo ra ngoại lệ, một số sách giáo khoa có những quy tắc có vẻ ngu ngốc đối với các nhà thống kê như tôi, các quy tắc như ghi nhãn một cái gì đó là một ngoại lệ nếu nó nhiều hơn một số sd từ trung vị, hoặc bất cứ điều gì. Khái niệm về một ngoại lệ là hữu ích nhưng tôi nghĩ nó đòi hỏi bối cảnh nếu bạn gắn nhãn một cái gì đó là một ngoại lệ, bạn muốn thử hiểu lý do tại sao bạn nghĩ như vậy.
Để thêm một chút nữa, trước tiên chúng ta xác định ngoại lệ như thế nào . Cố gắng thực hiện một cách nghiêm ngặt mà không đề cập đến bất cứ điều gì trực quan như "có vẻ như nó ở rất xa các điểm khác". Nó thực sự khá khó khăn.
Tôi muốn nói rằng một ngoại lệ là một điểm rất khó có thể đưa ra một mô hình về cách các điểm được tạo ra. Trong hầu hết các tình huống, mọi người thực sự không có một mô hình về cách các điểm được tạo ra, hoặc nếu họ làm điều đó quá đơn giản đến mức bị sai nhiều lần. Vì vậy, như Andrew nói, mọi người sẽ làm những việc như giả định rằng một loại quy trình Gaussian nào đó đang tạo ra các điểm và vì vậy nếu một điểm có nhiều hơn một số SD nhất định từ trung bình, thì đó là một ngoại lệ. Toán học thuận tiện, không quá nguyên tắc.
Và chúng tôi thậm chí không hiểu được những gì mọi người làm với các ngoại lệ một khi họ được xác định. Hầu hết mọi người muốn ném những điểm bất tiện này đi, ví dụ. Trong nhiều trường hợp, đó là những ngoại lệ dẫn đến những đột phá và khám phá, chứ không phải những ngoại lệ!
Có rất nhiều quảng cáo đặc biệt trong phát hiện ngoại lệ, như được thực hiện bởi những người không thống kê, và Andrew không thoải mái với điều đó.