Cờ ngoại lệ không phải là một cuộc gọi phán xét (hoặc trong mọi trường hợp không cần phải là một). Đưa ra một mô hình thống kê, các ngoại lệ có một định nghĩa chính xác, khách quan: chúng là các quan sát không tuân theo mô hình của phần lớn dữ liệu. Những quan sát như vậy cần được đặt ra khi bắt đầu bất kỳ phân tích nào chỉ vì khoảng cách của chúng với phần lớn dữ liệu đảm bảo rằng chúng sẽ tạo ra lực kéo không cân xứng đối với bất kỳ mô hình đa biến nào phù hợp với khả năng tối đa (hoặc thực sự là bất kỳ chức năng mất lồi nào khác).
Điều quan trọng là chỉ ra rằng đa biến outlier s có thể đơn giản là không thể phát hiện nếu dùng dư từ một sự phù hợp bình phương tối thiểu (hoặc bất kỳ mô hình khác theo ước tính của ML, hay bất kỳ chức năng mất lồi khác). Nói một cách đơn giản, các ngoại lệ đa biến chỉ có thể được phát hiện một cách đáng tin cậy bằng cách sử dụng phần dư của chúng từ một mô hình được trang bị bằng thủ tục ước tính không dễ bị ảnh hưởng bởi chúng.
Niềm tin rằng các ngoại lệ sẽ cần thiết nổi bật trong phần còn lại của một mức độ phù hợp cổ điển ở đâu đó trên đó với các thống kê khó có thể gỡ rối khác như giải thích các giá trị p như thước đo bằng chứng hoặc rút ra suy luận về dân số từ một mẫu thiên vị. Ngoại trừ có lẽ điều này có thể cũ hơn nhiều: Bản thân Gauss đã khuyến nghị sử dụng công cụ ước lượng mạnh như trung bình và điên (thay vì trung bình cổ điển và độ lệch chuẩn) để ước tính các tham số của phân phối bình thường từ các quan sát nhiễu (thậm chí sẽ đi cho đến khi có được yếu tố nhất quán của điên (1)).
Để đưa ra một ví dụ trực quan đơn giản dựa trên dữ liệu thực, hãy xem xét dữ liệu sao CYG khét tiếng . Đường màu đỏ ở đây mô tả sự phù hợp vuông nhỏ nhất, đường màu xanh phù hợp thu được bằng cách sử dụng khớp hồi quy tuyến tính mạnh mẽ. Sự phù hợp mạnh mẽ ở đây cụ thể là sự phù hợp FastLTS (2), một sự thay thế cho sự phù hợp LS có thể được sử dụng để phát hiện các ngoại lệ (bởi vì nó sử dụng một thủ tục ước tính để đảm bảo rằng ảnh hưởng của bất kỳ quan sát nào đối với hệ số ước tính bị giới hạn). Mã R để sao chép nó là:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
Điều thú vị là, 4 quan sát bên ngoài bên trái thậm chí không có phần dư lớn nhất liên quan đến độ phù hợp LS và âm mưu QQ của phần dư của phù hợp LS (hoặc bất kỳ công cụ chẩn đoán nào có nguồn gốc từ chúng như khoảng cách của Cook hoặc dfbeta) không thể hiện bất kỳ vấn đề nào trong số chúng là có vấn đề. Đây thực sự là chuẩn mực: không cần nhiều hơn hai ngoại lệ (bất kể kích thước mẫu) để kéo các ước tính LS theo cách mà các ngoại lệ sẽ không nổi bật trong một âm mưu còn lại. Đây được gọi là hiệu ứng mặt nạvà nó là tài liệu tốt. Có lẽ điều duy nhất đáng chú ý về bộ dữ liệu CYGstars là nó là bivariate (do đó chúng ta có thể sử dụng kiểm tra trực quan để xác nhận kết quả của sự phù hợp mạnh mẽ) và thực sự có một lời giải thích tốt cho lý do tại sao bốn quan sát bên trái này rất bất thường.
Đây là, btw, ngoại lệ nhiều hơn so với quy tắc: ngoại trừ trong các nghiên cứu thí điểm nhỏ liên quan đến các mẫu nhỏ và một vài biến số và người thực hiện phân tích thống kê cũng tham gia vào quá trình thu thập dữ liệu, tôi chưa bao giờ gặp trường hợp nào tin tưởng trước đó về danh tính của các ngoại lệ đã thực sự đúng. Đây là bằng cách yên tĩnh dễ dàng để xác minh. Bất kể các ngoại lệ đã được xác định bằng thuật toán phát hiện ngoại lệ hay cảm giác ruột của nhà nghiên cứu, các ngoại lệ là theo quan sát định nghĩa có đòn bẩy bất thường (hoặc 'kéo') so với các hệ số thu được từ phù hợp LS. Nói cách khác, các ngoại lệ là các quan sát mà việc loại bỏ khỏi mẫu sẽ ảnh hưởng nghiêm trọng đến sự phù hợp của LS.
Mặc dù tôi cũng chưa bao giờ trải nghiệm điều này, nhưng có một số trường hợp được ghi chép rõ ràng trong tài liệu trong đó các quan sát được gắn cờ là ngoại lệ bởi thuật toán phát hiện ngoại lệ sau đó được phát hiện là lỗi thô hoặc được tạo ra bởi một quy trình khác. Trong mọi trường hợp, không được bảo đảm về mặt khoa học cũng như không khôn ngoan khi chỉ loại bỏ các ngoại lệ nếu chúng có thể được hiểu hoặc giải thích bằng cách nào đó. Nếu một nhóm nhỏ các quan sát đã bị loại bỏ khỏi phần chính của dữ liệu thì nó có thể tự mình lấy kết quả của một quy trình thống kê, đó là điều khôn ngoan (và tôi có thể thêm tự nhiên) để xử lý nó bất kể có hay không không phải những điểm dữ liệu này cũng bị nghi ngờ trên những lý do khác.
(1): xem Stephen M. Stigler, Lịch sử thống kê: Đo lường sự không chắc chắn trước năm 1900.
(2): Tính toán hồi quy LTS cho các tập dữ liệu lớn (2006) PJ Rousseeuw, K. van Driessen.
(3): Phương pháp đa biến mạnh mẽ phân tích cao (2008). Hubert M., Rousseeuw PJ và Van Aelst S. Nguồn: Statist. Khoa học Tập 23, 92-119.