Tôi đã thực hiện rất nhiều nghiên cứu về các ngoại lệ, đặc biệt là khi tôi làm việc xác thực dữ liệu năng lượng tại Oak Ridge từ 1978 đến 1980. Có các thử nghiệm chính thức cho các ngoại lệ đơn biến cho dữ liệu thông thường (ví dụ: thử nghiệm tỷ lệ của Grubbs và thử nghiệm tỷ lệ của Dixon). Có các bài kiểm tra cho các ngoại lệ đa biến và chuỗi thời gian. Cuốn sách của Barnett và Lewis về "Những người ngoại lệ trong dữ liệu thống kê" là cuốn kinh thánh về những người ngoài cuộc và chỉ nói về mọi thứ.
Khi tôi ở Oak Ridge làm việc về xác thực dữ liệu, chúng tôi có các bộ dữ liệu đa biến lớn. Đối với các ngoại lệ đơn biến, có một hướng cho các cực trị (rất cao trên trung bình và cao dưới trung bình). Nhưng đối với các ngoại lệ đa biến, có nhiều hướng để tìm kiếm các ngoại lệ. Triết lý của chúng tôi là xem xét mục đích sử dụng của dữ liệu là gì. Nếu bạn đang cố gắng ước tính các tham số nhất định như tương quan bivariate hoặc hệ số hồi quy thì bạn muốn xem xét theo hướng cung cấp hiệu quả lớn nhất cho tham số quan tâm. Lúc đó tôi đã đọc bài báo chưa xuất bản của Mallows về các chức năng ảnh hưởng. Việc sử dụng các chức năng ảnh hưởng để phát hiện các ngoại lệ được đề cập trong cuốn sách phân tích đa biến của Gnanadesikan. Tất nhiên bạn cũng có thể tìm thấy nó ở Barnett và Lewis.
Hàm ảnh hưởng cho một tham số được xác định tại các điểm trong không gian đa biến của các quan sát và về cơ bản đo lường sự khác biệt giữa ước tính tham số khi điểm dữ liệu được đưa vào so với khi nó bị bỏ đi. Bạn có thể thực hiện các ước tính như vậy với từng điểm mẫu nhưng thông thường bạn có thể lấy được một dạng hàm đẹp cho hàm ảnh hưởng mang lại cái nhìn sâu sắc và tính toán nhanh hơn.
Ví dụ trong bài báo của tôi trên Tạp chí Khoa học Quản lý và Toán học Hoa Kỳ năm 1982 "Hàm ảnh hưởng và ứng dụng của nó để xác nhận dữ liệu" Tôi chỉ ra công thức phân tích cho hàm ảnh hưởng cho tương quan bivariate và các đường viền của ảnh hưởng không đổi là hyperbolae. Vì vậy, các đường viền hiển thị hướng trong mặt phẳng nơi chức năng ảnh hưởng tăng nhanh nhất.
Trong bài báo của mình, tôi chỉ ra cách chúng ta áp dụng hàm ảnh hưởng cho tương quan bivariate với dữ liệu FPC Form 4 về việc tạo và tiêu thụ năng lượng. Có một mối tương quan tích cực cao rõ ràng giữa hai và chúng tôi đã tìm thấy một vài ngoại lệ có ảnh hưởng lớn đến ước tính tương quan. Điều tra sâu hơn cho thấy rằng ít nhất một trong những điểm đã bị lỗi và chúng tôi đã có thể sửa nó.
Nhưng một điểm quan trọng mà tôi luôn đề cập khi thảo luận về các ngoại lệ là từ chối tự động là sai. Ngoại lệ không phải lúc nào cũng là một lỗi và đôi khi nó cung cấp thông tin quan trọng về dữ liệu. Dữ liệu hợp lệ không nên bị xóa chỉ vì nó không phù hợp với lý thuyết thực tế của chúng tôi. Có hay không khó thực hiện, lý do tại sao ngoại lệ xảy ra phải luôn luôn được điều tra.
Tôi nên đề cập rằng đây không phải là lần đầu tiên các ngoại lệ đa biến được thảo luận trong trang web này. Một cuộc tìm kiếm các ngoại lệ có thể sẽ dẫn đến một số câu hỏi trong đó các ngoại lệ đa biến đã được thảo luận. Tôi biết rằng tôi đã tham khảo bài viết của mình và những cuốn sách này trước đây và đưa ra các liên kết đến chúng.
Ngoài ra, khi từ chối ngoại lệ được thảo luận, nhiều người trong chúng tôi trên trang web này đã khuyến nghị chống lại nó đặc biệt là nếu nó được thực hiện chỉ dựa trên một bài kiểm tra thống kê. Peter Huber thường đề cập đến ước tính mạnh mẽ như là một thay thế cho từ chối ngoại lệ. Ý tưởng là các quy trình mạnh mẽ sẽ làm giảm sức mạnh của các ngoại lệ làm giảm tác dụng của chúng đối với việc ước tính mà không cần bước từ chối nặng nề và sử dụng công cụ ước tính không mạnh mẽ.
Chức năng ảnh hưởng thực sự ban đầu được phát triển bởi Frank Hampel trong luận án tiến sĩ vào đầu những năm 1970 (1974 tôi nghĩ). Ý tưởng của ông thực sự là sử dụng các hàm ảnh hưởng để xác định các công cụ ước tính không mạnh mẽ chống lại các ngoại lệ và để giúp phát triển các công cụ ước tính mạnh mẽ.
Đây là một liên kết đến một cuộc thảo luận trước đây về chủ đề này, nơi tôi đã đề cập đến một số công việc của tôi về việc phát hiện các ngoại lệ trong chuỗi thời gian bằng cách sử dụng các hàm ảnh hưởng.