Sự khác biệt giữa sớm hơn và sớm hơn


10

Tôi đã vấp phải thuật ngữ sớm hơn trong biện pháp LOF (Yếu tố ngoại lệ cục bộ), tôi quen thuộc với thuật ngữ ngoại lệ (về cơ bản là liers - những trường hợp không hoạt động như các trường hợp còn lại).

'Inliers' có nghĩa là gì trong bối cảnh phát hiện dị thường? và làm thế nào nó có liên quan đến (khác với) ngoại lệ?


Câu trả lời:


8

Đây là một lĩnh vực có một chút không nhất quán về thuật ngữ có tác dụng đáng tiếc gây nhầm lẫn một số cuộc thảo luận thống kê. Khái niệm về một " đầu"thường được sử dụng để chỉ một giá trị dữ liệu bị lỗi (nghĩa là có lỗi đo lường) nhưng dù sao cũng nằm trong" phần bên trong "của phân phối các giá trị được đo chính xác. Theo định nghĩa này, phần trước có hai khía cạnh: (1 ) nó nằm trong phần bên trong của phân phối giá trị có liên quan và (2) nó là một giá trị sai. Ngược lại, khái niệm tương ứng của một "ngoại lệ" thường được sử dụng để chỉ bất kỳ giá trị dữ liệu nào nằm xa đuôi của phân phối, nhưng không có bất kỳ khía cạnh xác định nào giả định rằng đó là lỗi. Thuật ngữ này mang lại sự không nhất quán đáng tiếc, trong đó "đầu vào" là một điểm dữ liệu sai (theo định nghĩa) nhưng "ngoại lệ" không nhất thiết là một điểm dữ liệu sai. theo thuật ngữ này, sự kết hợp của "inliers" và "outliers"không tương ứng với tất cả dữ liệu hoặc thậm chí với tất cả các dữ liệu sai.

Đối phó với các ngoại lệ: Tôi đã thảo luận về việc đối phó với các ngoại lệ trong các câu hỏi khác ở đâyở đây , nhưng để thuận tiện, tôi sẽ lặp lại một số nhận xét ở đây. Các ngoại lệ là các điểm nằm cách xa phần lớn các điểm khác trong phân phối và chẩn đoán "ngoại lệ" được thực hiện bằng cách so sánh điểm dữ liệu với một số dạng phân phối giả định. Mặc dù các ngoại lệ đôi khi có thể gây ra lỗi đo lường, chẩn đoán các ngoại lệ cũng có thể xảy ra khi dữ liệu tuân theo phân phối có độ nhiễu cao (ví dụ: đuôi béo), nhưng nhà phân tích so sánh các điểm dữ liệu với dạng phân phối giả định với mức độ tổn thương thấp (ví dụ: phân phối chuẩn).

Việc gắn cờ "ngoại lệ" trong các thử nghiệm ngoại lệ thực sự chỉ có nghĩa là phân phối mô hình bạn đang sử dụng không có đuôi đủ béo để thể hiện chính xác dữ liệu được quan sát. Điều này có thể là do một số dữ liệu có lỗi đo lường hoặc có thể là do phân phối có đuôi béo. Trừ khi có một số lý do để nghĩ rằng độ lệch so với mẫu mô hình giả định tạo thành bằng chứng về lỗi đo lường (sẽ yêu cầu cơ sở lý thuyết cho giả định phân phối), sự hiện diện của các ngoại lệ thường có nghĩa là bạn nên thay đổi mô hình của mình để sử dụng phân phối với chất béo hơn đuôi. Thật khó để phân biệt giữa sai số đo lường và mức độ tổn thương cao là một phần của phân phối cơ bản.

Xử lý các inliers (mà thực sự thường liên quan đến việc không xử lý chúng): Trừ khi bạn có một nguồn thông tin bên ngoài chỉ ra lỗi đo lường, về cơ bản là không thể xác định được "inliers". Theo định nghĩa, đây là các điểm dữ liệu nằm trong "phần bên trong" của phân phối, nơi hầu hết các dữ liệu khác xảy ra. Do đó, nó không được phát hiện bởi các thử nghiệm tìm kiếm dữ liệu "quang sai" từ các điểm dữ liệu khác. (Trong một số trường hợp, bạn có thể phát hiện "inliers" dường như nằm trong phần bên trong của bản phân phối, nhưng thực sự là "ngoại lệ" khi được sử dụng cho một đại diện phức tạp hơn của bản phân phối. Trong trường hợp này, điểm thực sự là một ngoại lệ,

Trong một số trường hợp hiếm hoi, bạn có thể có một nguồn thông tin bên ngoài xác định một tập hợp con dữ liệu của bạn bị lỗi đo lường (ví dụ: nếu bạn đang thực hiện một khảo sát lớn và bạn phát hiện ra rằng một trong những người khảo sát của bạn chỉ đang tạo ra dữ liệu của họ ). Trong trường hợp này, bất kỳ điểm dữ liệu nào trong tập hợp con đó nằm trong phần bên trong của phân phối là "inliers" và được biết thông qua thông tin bên ngoài có thể bị lỗi đo lường. Trong trường hợp này, bạn thường sẽ loại bỏ tất cả các dữ liệu được biết là sai, ngay cả khi một số trong đó là "inliers" nằm trong phần bên trong của bản phân phối mà bạn mong đợi. Vấn đề ở đây là một điểm dữ liệu có thể bị lỗi ngay cả khi nó không nằm trong đuôi của phân phối.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.