Fringeliers dường như được định nghĩa là một loại ngoại lệ ít cực đoan hơn. Tức là, dữ liệu trên rìa của phân phối.
Ví dụ: bạn đã xác định mức cắt cho các ngoại lệ, các fringeliers có thể được vận hành thành các giá trị gần với hai bên của ngưỡng (ví dụ: đối với mức cắt 3 SD, từ trung bình 2,7 đến 3,3 SD).
Ostern và Overbay (2008) viết như sau:
Mặc dù các định nghĩa khác nhau, một ngoại lệ thường được coi là một điểm dữ liệu nằm ngoài định mức cho một biến hoặc dân số (ví dụ, Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) đã mô tả một ngoại lệ là một quan sát cho thấy, lệch rất nhiều so với các quan sát khác để khơi dậy sự nghi ngờ rằng nó được tạo ra bởi một cơ chế khác (trang 1). Outliers cũng đã được định nghĩa là các giá trị là nghi ngờ của Hồi giáo trong mắt nhà nghiên cứu giáo dục (Dixon, 1950, p. 488) và các chất gây ô nhiễm (Wainer, 1976).
Và tiếp tục giới thiệu thuật ngữ "fringelier" từ Wainer (1976)
Wainer (1976) cũng đã giới thiệu khái niệm về fringelier của người Hồi giáo, đề cập đến những sự kiện bất thường xảy ra thường xuyên hơn so với hiếm khi xảy ra (trang 286). Những điểm này nằm gần ba độ lệch chuẩn so với giá trị trung bình và do đó có thể có ảnh hưởng mạnh mẽ không tương xứng đến các ước tính tham số, nhưng không rõ ràng hoặc dễ dàng được xác định là các ngoại lệ thông thường do sự gần gũi của chúng với trung tâm phân phối.
Vài ví dụ:
Trong một số bối cảnh, các ngoại lệ cho thấy dữ liệu không hợp lệ. Ví dụ: nếu chiều cao của một người đàn ông được ghi là cao 8 feet (ví dụ 6,5 SD so với giá trị trung bình), đây có thể là một phép đo không hợp lệ. Ngược lại, nếu chiều cao của ai đó được ghi là cao 6 feet 10 inch (cao hơn 3 SD so với giá trị trung bình - thì đó là một phép đo hợp lệ, nhưng đồng thời, nó có thể gợi ý vấn đề về đo lường vì điều này khá hiếm. Vấn đề là việc xác định xem một giá trị không hợp lệ có trở nên khó hơn hay không, giá trị càng trở nên cực đoan.
Trong các bối cảnh khác, các ngoại lệ là một mối quan tâm vì chúng có ảnh hưởng quá mức đến các ước tính tham số, đặc biệt là khi sử dụng các phương pháp thống kê tiêu chuẩn sử dụng bình phương tối thiểu, v.v. Do đó, fringeliers có thể có tác động lớn hơn so với một số trường hợp, nhưng quyết định về việc có nên giữ lại dữ liệu hay không cho mục đích lập mô hình có thể ít rõ ràng hơn.
Người giới thiệu
- Ostern, J. & Overbay, A. (2008). Thực hành tốt nhất trong việc làm sạch dữ liệu: làm thế nào các ngoại lệ và fringeliers 'có thể tăng tỷ lệ lỗi và giảm chất lượng và độ chính xác của kết quả của bạn. Trong Ostern, J. Thực hành tốt nhất trong các phương pháp định lượng (trang 205-213). Ngàn Bàu, CA: SAGE Publications, Inc. doi: 10,4135 / xà12995627
- Thống kê của Wainer, H.Robust: Một khảo sát và một số đơn thuốc1 (4) 285-312 (1976).