Sự khác biệt giữa phát hiện ngoại lệ và phát hiện bất thường là gì?


8

Tôi muốn biết sự khác biệt về các ứng dụng (ví dụ: ứng dụng nào là phát hiện gian lận thẻ tín dụng?) Và về mặt kỹ thuật được sử dụng.

Ví dụ giấy tờ xác định nhiệm vụ sẽ được hoan nghênh.


bạn đã có một cái nhìn về điều này? stats.stackexchange.com/questions/189664/ . Có vẻ như câu trả lời cho câu hỏi của bạn là ở đó.
moh

@Moh Tôi đã xem nó và tôi nghĩ rằng câu trả lời không rõ ràng lắm. Đây là lý do tại sao tôi yêu cầu các ứng dụng và kỹ thuật được đưa vào để trả lời câu hỏi của tôi.
Martin Thoma

Đặc biệt là dường như không có sự đồng thuận nếu hai thuật ngữ đó có ý nghĩa khác nhau hay không. Hãy xem liệu cộng đồng này có tìm thấy sự đồng thuận / tài nguyên có thẩm quyền hay không.
Martin Thoma

Câu trả lời:


7

Về cơ bản không có sự khác biệt. Giả sử bạn có dữ liệu và bạn muốn xây dựng một mô hình của nó. Như tên cho thấy, mô hình hóa là về việc tìm kiếm một mô hình, nghĩa là một biểu diễn đơn giản hóa dữ liệu của bạn. Đổi lại, chúng ta có thể xem mô hình như một quy trình cơ bản tạo ra dữ liệu của bạn ở nơi đầu tiên, cộng với một số nhiễu. Từ quan điểm đó, dữ liệu bạn nhìn thấy được tạo bởi mô hình - và chúng tôi có thể nói rằng một số điểm bạn thấy ít có khả năng được tạo bởi mô hình của bạn hơn các mô hình khác.

Ví dụ: nếu bạn xây dựng mô hình hồi quy tuyến tính, các điểm ở xa đường hồi quy sẽ ít có khả năng được tạo ra bởi mô hình. Đó là những gì mọi người muốn nói khi họ nói về 'phần dư' theo cách nói thống kê thông thường. Nó cũng được gọi là khả năng của dữ liệu.

Các điểm dữ liệu có khả năng thấp, theo mô hình bạn đã tạo, là sự bất thường hoặc ngoại lệ. Từ quan điểm xây dựng mô hình, chúng là cùng một thứ.

Thông thường, mọi người sử dụng thuật ngữ 'ngoại lệ' có nghĩa là "thứ gì đó tôi nên xóa khỏi bộ dữ liệu để nó không làm lệch mô hình của tôi mà tôi đang xây dựng", thường là vì họ có linh cảm rằng có gì đó không đúng với dữ liệu đó và mô hình họ muốn xây dựng không cần phải tính đến nó. Một ngoại lệ thường được coi là một trở ngại cho việc xây dựng một mô hình mô tả dữ liệu tổng thể - đơn giản vì mô hình sẽ C toNG cố gắng giải thích ngoại lệ, đó không phải là điều mà học viên muốn.

Mặt khác, bạn có thể sử dụng thực tế là một mô hình cũng gán khả năng cho từng điểm dữ liệu cho lợi thế của bạn - có thể xây dựng một mô hình mô tả xu hướng đơn giản hơn trong dữ liệu, sau đó chủ động tìm kiếm các giá trị hiện có hoặc mới khả năng thấp. Đây là những gì mọi người có nghĩa là khi họ nói 'bất thường'. Nếu mục tiêu của bạn là phát hiện sự bất thường, đặc biệt là trong dữ liệu mới, đây là một điều tuyệt vời. Ngoại lệ của một người là sự bất thường của người khác!


7

(Tôi thực sự muốn viết câu này như một câu trả lời cho câu hỏi Xác thực chéo: Sự khác biệt giữa Bất thường và Ngoại lệ , nhưng câu hỏi được bảo vệ - Tôi nghĩ rằng trả lời nó ở đây sẽ ổn, mặc dù tầm nhìn thấp hơn)

Mọi người thỉnh thoảng lập luận rằng không có sự khác biệt giữa ngoại lệdị thường bằng cách trích dẫn Charu Aggarwal, tác giả của cuốn sách "Phân tích ngoại lệ" - đặc biệt, tuyên bố này:

Outliers cũng được gọi là bất thường , bất hòa , lệch lạc hoặc bất thường trong tài liệu thống kê và khai thác dữ liệu.

(Nguồn: "Phân tích ngoại lệ" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )

Tuy nhiên, tuyên bố này không ngụ ý rằng các ngoại lệ và dị thường là giống nhau - tương tự như nói rằng "Chó đôi khi được gọi là động vật" không có nghĩa là chúng giống nhau.

Thật khó để đưa ra một định nghĩa chính thức về các điều khoản. Các trang Wikipedia về giá trị ngoại biên đề cập đến trang Wikipedia về phát hiện bất thường và ngược lại, và cả hai đều chứa rất nhiều khả năng định nghĩa và giải thích các điều khoản. Mọi thứ đang trở nên tồi tệ hơn do các định nghĩa và thông tục cụ thể theo miền , nơi dường như là đủ khi hai người cùng lĩnh vực gần như biết những gì người kia đang nói về ...

Tuy nhiên, Varun Chandola cố gắng đưa ra một ý nghĩa chính xác hơn cho thuật ngữ "dị thường" trong khảo sát phát hiện dị thường của mình. Đặc biệt, ông phân loại dị thường thành ba loại:

  • Điểm bất thường: Một trường hợp dữ liệu riêng lẻ có thể được coi là bất thường đối với phần còn lại của dữ liệu
  • Bất thường bối cảnh: Nếu một trường hợp dữ liệu là bất thường trong một bối cảnh cụ thể (nhưng không phải là khác)
  • Bất thường tập thể: Nếu một tập hợp các trường hợp dữ liệu liên quan là bất thường đối với toàn bộ tập dữ liệu

(Tóm tắt từ "Anomaly Detection - Một khảo sát", Varun Chandola et al, Khảo sát ACM Computing 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )


Ở đây, thuật ngữ "điểm bất thường" dường như gần nhất với những gì tôi coi là một định nghĩa có thể có của từ "ngoại lệ". Và điều này phù hợp với tuyên bố của Aggarwal: Một ngoại lệ một sự bất thường. Nhưng không phải mọi sự bất thường là một ngoại lệ.

(Cái sau có thể phụ thuộc vào định nghĩa của từ ngoại lệ. Tất nhiên, người ta có thể định nghĩa nó ở cấp độ meta và nói rằng ngoại lệ là bất cứ thuật toán phát hiện ngoại lệ nào (hoặc mô hình) nào đó phát hiện như vậy. Nhưng hầu hết các định nghĩa Tôi đã gặp cho đến nay dựa trên một số loại "khoảng cách", "không giống nhau" hoặc "khác biệt" từ "đa số" các yếu tố dữ liệu khác. Nghe có vẻ hợp lý ...)

Một ví dụ: Có thể có một số điểm dữ liệu:

14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

Người ta có thể tính toán độ lệch trung bình và độ lệch chuẩn và sẽ có một thời gian khó để tranh luận tại sao một trong những điểm này phải là một "ngoại lệ".

Đối với một chuỗi các điểm dữ liệu như thế này

14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6

phát hiện "ngoại lệ" nên dễ dàng.

Tuy nhiên, giả sử rằng chuỗi đầu tiên mô tả, ví dụ, nhiệt độ trung bình bên ngoài hàng ngày, thực tế là nhiệt độ trung bình chính xác của 14.4độ được đo trong cả tuần chắc chắn có thể được coi là "dị thường".

(Có lẽ là "sự bất thường tập thể" theo các định nghĩa ở trên, nhưng tôi sẽ không tranh luận về điều đó ...)


Mặc dù tôi đang ở trên băng mỏng khi tranh luận về ý nghĩa chính xác hoặc trực quan của một số thuật ngữ nhất định (vì tôi không phải là chuyên gia khoa học dữ liệu cũng không phải là người nói tiếng Anh bản địa), điều này có nghĩa là "dị thường" là một thuật ngữ rộng hơn nhiều so với "ngoại lệ" ". Nhưng có lẽ cộng đồng khoa học dữ liệu chỉ đang trong quá trình phân loại các định nghĩa đúng về các thuật ngữ này.

Cập nhật:

Có lẽ cảm giác ruột của tôi về nghĩa đen của những từ nhất định là sai. Nhưng đối với tôi, từ "ngoại lệ" dường như nói "nằm ở đâu đó (hoặc cách xa) một cái gì đó (dựa trên một số đo khoảng cách)". Theo nghĩa đó, 14.4s trong ví dụ đầu tiên không phải là "ngoại lệ" mỗi se. Nhưng tất nhiên, mọi thứ trở nên khó khăn rất nhanh ở đây: Người ta có thể tưởng tượng một mô hình cho dữ liệu chứa số ngày liên tiếp có nhiệt độ bằng nhau (như trong mã hóa độ dài chạy ). Tính toán mô hình này cho dữ liệu đã cho sẽ mang lại

1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6

trong đó giá trị 7 không có khoảng cách lớn (sự khác biệt) với các giá trị khác trong mô hình. Vì vậy, "dị thường tập thể" trong 7 ngày liên tiếp với nhiệt độ bằng nhau đã bị biến thành "dị thường điểm" bởi sự biến đổi này.


Rất nhiều thông tin. Điều gì ngăn cản chúng ta sử dụng "ngoại lệ điểm", "ngoại lệ theo ngữ cảnh" và "ngoại lệ tập thể"? Tôi nghĩ rằng không có gì là buộc một sự phân biệt.
Esmailian

@Esmailian Tôi nghĩ rằng sự khác biệt giữa "ngoại lệ" và "dị thường" có thể có ý nghĩa. Nhưng việc đưa ra một định nghĩa chính xác về từng điều khoản được áp dụng trong mọi bối cảnh có thể khó khăn (hoặc có thể là không thể). Tôi đã thêm một Bản cập nhật ngắn chỉ ra cách giải thích / định nghĩa của tôi về từ "ngoại lệ" là gì và mức độ khó có thể áp dụng định nghĩa như vậy một cách chặt chẽ ...
Marco13

Vấn đề với điều này là, đó là một cách giải thích chủ quan. Nếu bạn có thể nhấn mạnh sự khác biệt với các trích dẫn chính xác, nó sẽ hữu ích hơn nhiều.
Mã Giáo hoàng

@CodePope Điều này chính xác đề cập đến điều gì? Tôi đã thêm bốn "trích dẫn", cho vấn đề đó, nhưng chỉ ra rằng ngay cả những định nghĩa được sử dụng rộng rãi nhất cũng mơ hồ và đôi khi thậm chí trái ngược nhau.
Marco13

Tất nhiên, bạn đã thêm bốn trích dẫn, nhưng không ai trong số họ nói rằng có sự khác biệt giữa ngoại lệ và dị thường hoặc ngoại lệ đó là sự thay thế của sự bất thường. Ngoài ra, không có trích dẫn nào của bạn và bất kỳ bài báo nào khác mà tôi đã đọc đồng ý với cách giải thích của bạn rằng các ngoại lệ là điểm bất thường. Đó là trực giác phổ biến rằng các ngoại lệ là các điểm duy nhất, nhưng đây không phải là định nghĩa chính thức. Ví dụ: "Một quan sát (hoặc tập hợp con của các quan sát) dường như không phù hợp với phần còn lại của tập dữ liệu đó." (Barnet và Lewis - 1994)
Bộ luật Giáo hoàng

0

Một ngoại lệ là một điểm dữ liệu khác thường.

Một sự bất thường là một trường hợp đặc biệt của các ngoại lệ, họ có thể có thông tin hoặc lý do đặc biệt / hữu ích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.