Miễn là dữ liệu của bạn đến từ một phân phối đã biết với các thuộc tính đã biết, bạn có thể định nghĩa chặt chẽ một ngoại lệ là một sự kiện không thể được tạo ra bởi quá trình quan sát (nếu bạn cho rằng "quá khó" là không nghiêm ngặt, thì tất cả các thử nghiệm giả thuyết là).
Tuy nhiên, cách tiếp cận này có vấn đề ở hai cấp độ: Nó giả định rằng dữ liệu đến từ một phân phối đã biết với các thuộc tính đã biết và nó có nguy cơ các ngoại lệ được xem là các điểm dữ liệu được nhập lậu vào dữ liệu của bạn do một số ma thuật đặt.
Trong trường hợp không có các dữ liệu ma thuật, tất cả dữ liệu đến từ thử nghiệm của bạn, và do đó thực sự không thể có ngoại lệ, chỉ là kết quả kỳ lạ. Những lỗi này có thể xuất phát từ lỗi ghi âm (ví dụ: căn nhà 400000 phòng ngủ với giá 4 đô la), các vấn đề đo lường có hệ thống (thuật toán phân tích hình ảnh báo cáo các khu vực lớn nếu đối tượng quá gần biên giới) (đôi khi, các tinh thể kết tủa ra khỏi giải pháp, cho tín hiệu rất cao) hoặc các tính năng của hệ thống của bạn (một tế bào đôi khi có thể chia thành ba thay vì hai), nhưng chúng cũng có thể là kết quả của một cơ chế mà không ai từng xem xét vì nó hiếm và bạn đang nghiên cứu, điều đó có nghĩa là một số thứ bạn làm đơn giản là chưa biết.
Lý tưởng nhất là bạn dành thời gian để điều tra mọi ngoại lệ và chỉ xóa nó khỏi bộ dữ liệu của bạn một khi bạn hiểu tại sao nó không phù hợp với mô hình của bạn. Điều này tốn nhiều thời gian và chủ quan ở chỗ các lý do phụ thuộc rất nhiều vào thí nghiệm, nhưng phương án còn tệ hơn: Nếu bạn không hiểu các ngoại lệ đến từ đâu, bạn có thể lựa chọn giữa việc để các ngoại lệ "làm rối tung" kết quả của bạn, hoặc xác định một số cách tiếp cận "nghiêm ngặt về mặt toán học" để che giấu sự thiếu hiểu biết của bạn. Nói cách khác, bằng cách theo đuổi "sự nghiêm ngặt toán học", bạn chọn giữa việc không đạt được hiệu quả đáng kể và không được lên thiên đàng.
BIÊN TẬP
Nếu tất cả những gì bạn có là một danh sách các số mà không biết chúng đến từ đâu, bạn không có cách nào để biết liệu một số điểm dữ liệu có phải là ngoại lệ hay không, bởi vì bạn luôn có thể giả sử một phân phối trong đó tất cả dữ liệu là các giá trị.