Sự khác biệt giữa dị thường và ngoại lệ


13

Sự khác biệt giữa Ngoại lệ và dị thường trong bối cảnh học máy là gì. Sự hiểu biết của tôi là cả hai đều đề cập đến cùng một điều.


3
Vì tò mò, ở đâu trong văn học là một sự phân biệt như vậy được thực hiện? Tôi đã có ấn tượng rằng "ngoại lệ" không có định nghĩa chính thức, bên ngoài là đòn bẩy cao và quan sát ảnh hưởng cao. Ảnh hưởng và đòn bẩy làm có định nghĩa toán học, nhưng xem xét một cái gì đó "cao" là tùy ý. Có vẻ như những từ tùy tiện đang được hoán đổi xung quanh.
AdamO

Những người sử dụng từ "đầu vào" ngầm tạo ra một số loại khác biệt giữa "dị thường" và "ngoại lệ", bởi vì một từ trước là một loại dị thường. Vì cả "ngoại lệ" và "dị thường" đều không có định nghĩa kỹ thuật xác định, thường được hiểu, chúng ta nên mong đợi câu hỏi này có nhiều câu trả lời khác nhau (ít nhất là một chút) với nhau.
whuber

Câu trả lời:


9

Hai thuật ngữ là từ đồng nghĩa theo:

Aggarwal, Charu C. Phân tích ngoại lệ. Springer New York, 2017, đổi mới: http://dx.doi.org/10.1007/978-3-319-47578-3_1

Trích dẫn từ trang 1:

Outliers cũng được gọi là bất thường, bất hòa, lệch lạc hoặc bất thường trong tài liệu thống kê và khai thác dữ liệu.

Văn bản in đậm không phải là một phần của văn bản gốc.

Tải về miễn phí pdf của cuốn sách có sẵn từ tác giả ở đây.


Việc "ngoại lệ" được gọi là "dị thường" không có nghĩa là chúng đồng nghĩa. "Chó" đôi khi được gọi là "động vật", cho vấn đề đó. Tôi đã cố gắng giải quyết vấn đề này chi tiết hơn trong câu trả lời này (tôi không thể đăng nó ở đây, vì câu hỏi được bảo vệ).
Marco13

9

Một câu trả lời tặc lưỡi:

Ngoại lệ: một giá trị mà bạn dự đoán sẽ tìm thấy trong dữ liệu cho biết mô hình của bạn không hoạt động đúng

Bất thường: một giá trị chống lại tất cả các tỷ lệ cược bạn tìm thấy trong dữ liệu cho biết mô hình của bạn hoạt động đúng

Một câu trả lời nghiêm túc hơn, ít khó hiểu hơn:

Khái niệm về các ngoại lệ bắt đầu từ vấn đề xây dựng một mô hình đưa ra các giả định về dữ liệu. Các ngoại lệ thường là các chỉ số cho thấy mô hình không mô tả đúng dữ liệu và do đó chúng ta nên đặt câu hỏi về kết quả của mô hình hoặc chất lượng dữ liệu của chúng tôi.

Khái niệm dị thường bắt đầu bên ngoài thế giới lý thuyết và bên trong thế giới ứng dụng: chúng tôi muốn tìm kiếm hành vi bất thường trong dữ liệu của mình, đôi khi bị thúc đẩy bởi thực tế là chúng tôi quan tâm đến việc tìm kiếm hành vi mà ai đó đang cố gắng che giấu (như virus trong một e-mail). Vấn đề là vì mọi người đang cố gắng che giấu những gì họ đang làm, chúng tôi không thực sự biết phải tìm gì. Vì vậy, chúng tôi lấy một bộ dữ liệu "tốt" và quyết định rằng bất cứ điều gì chúng tôi tìm thấy trong bộ dữ liệu mới của chúng tôi trông không "tốt" là một sự bất thường và đáng để chúng tôi kiểm tra chi tiết hơn. Thông thường, tìm kiếm sự bất thường có nghĩa là tìm kiếm các ngoại lệ trong bộ dữ liệu mới của bạn. Nhưng lưu ý rằng những giá trị này có thể rất phổ biến trong tập dữ liệu mới của bạn, mặc dù rất hiếm trong tập dữ liệu cũ của bạn!

Tóm lại, hai khái niệm này rất giống nhau về mặt thống kê đằng sau chúng (nghĩa là các giá trị bất thường được đưa ra cho mô hình được trang bị của bạn) nhưng đến từ ý tưởng từ các góc độ khác nhau. Ngoài ra, khi chúng ta nói về các ngoại lệ, chúng ta thường có nghĩa là một điểm dữ liệu bất thường trong dữ liệu được sử dụng để phù hợp với mô hình của chúng ta , trong đó, sự bất thường thường có nghĩa là một điểm dữ liệu bất thường trong bộ dữ liệu bên ngoài dữ liệu được sử dụng để phù hợp với mô hình của chúng ta .

Lưu ý: câu trả lời này dựa trên cách tôi đã thấy hai thuật ngữ thường được sử dụng thay vì các định nghĩa chính thức. Trải nghiệm người dùng có thể khác nhau.


6

Sự bất thường là kết quả không thể giải thích được cho phân phối cơ sở (không thể áp dụng nếu các giả định của chúng tôi là chính xác). Một ngoại lệ là một sự kiện không thể xảy ra với phân phối cơ sở (không có khả năng).


7
Trích dẫn nguồn cho các định nghĩa và ví dụ sẽ cải thiện rất nhiều câu trả lời.
Tim

4
Theo tôi biết họ là từ đồng nghĩa. Vậy @H. Iqbal thực sự phải trích dẫn nguồn và tất cả các độc giả sau đó phải đánh giá tính ủy quyền của nguồn sayd
Jacques Wainer

2
Không thể tưởng tượng được ngụ ý P (X = ANOMALY) = 0 (tức là chính xác 0). Hiểu biết của tôi về phát hiện bất thường là nhà nghiên cứu có thể quan tâm đến các sự kiện có thể có xác suất dương.
Vách đá AB

4

Các thuật ngữ được sử dụng chủ yếu theo cách có thể hoán đổi cho nhau. "Ngoại lệ" đề cập đến một cái gì đó nằm ngoài định mức - vì vậy nó là "dị thường". Nhưng tôi có một nhấn mạnh rằng "ngoại lệ" thường được sử dụng cho các quan sát rất hiếm . Trong thống kê, trên một bản phân phối bình thường, bạn sẽ coi ba sigma là ngoại lệ. Đó là 99,7% đối tượng của bạn được dự kiến ​​là "bình thường". "Bất thường" được sử dụng tự do hơn nhiều. Nếu bạn đột nhiên có hàng triệu khách truy cập trên trang web của mình, đây không phải là những khách truy cập hiếm. Tuy nhiên, lượng khách tăng đột ngột vẫn là "dị thường", trong khi mỗi khách truy cập không phải là "ngoại lệ".

Có thể trong bài viết này tôi đã thấy những khác biệt này được thảo luận, nhưng tôi không thể truy cập nó ngay bây giờ, thật không may.

Phân tích thống kê và khai thác dữ liệu, Tập 5, Số 5, Tháng 10 năm 2012, Trang 363 Tắt387 Một khảo sát về phát hiện ngoại lệ không giám sát trong dữ liệu số chiều cao


1
Tôi nghĩ rằng bạn đã gợi ý một cách tinh tế về sự khác biệt giữa ngoại lệ và dị thường; các ngoại lệ được sử dụng để mô tả dữ liệu không phù hợp với xu hướng chung, dị thường mô tả lưu lượng truy cập bất thường trên máy chủ. 50% jk.
Vách đá AB

2

Chỉ cần làm vũng nước hơn nữa, trong điều kiện khí hậu dị thường chỉ ngụ ý sự khác biệt giữa giá trị và giá trị trung bình, hoặc độ lệch:

Thuật ngữ dị thường nhiệt độ có nghĩa là xuất phát từ giá trị tham chiếu hoặc trung bình dài hạn. Một dị thường dương cho thấy nhiệt độ quan sát được ấm hơn giá trị tham chiếu, trong khi dị thường âm cho thấy nhiệt độ quan sát được mát hơn giá trị tham chiếu.

xem ví dụ

Điều đó cũng có thể được coi là học máy bên ngoài, nhưng những người quan tâm đến câu hỏi có thể quan tâm đến điều này.


1

(1,5)y= =x(1,1)(5,5) ,(3,3,1) phù hợp hơn y= =x.

Một sự bất thường có thể là một điểm dữ liệu, hoặc cũng là một xu hướng hoặc hành vi chung được quan sát trong dữ liệu sau khi một mô hình đã được xây dựng hoặc sự hiểu biết về quá trình tạo dữ liệu được hình thành. Bạn phải đối mặt với sự bất thường vì hệ thống bắt đầu hoạt động khác đi hoặc bạn tìm kiếm các điểm dữ liệu đó, vì bạn muốn được thông báo khi một sự kiện xảy ra trong đó mô hình của bạn không hợp lệ. Bạn có thể quan tâm đến việc quan sát bất kỳ hành vi bất thường nào trong biên độ của sóng biển, không phải vì bạn muốn vứt bỏ những điểm dữ liệu đó và xây dựng một mô hình tốt hơn, mà bởi vì bạn muốn biết khi nào có thể xảy ra sóng thần.


2
Tôi không đồng ý với hầu hết điều này. Đầu tiên, câu đầu tiên có thể là định nghĩa của bạn về ngoại lệ nếu bạn thích, nhưng thật khó để hòa hợp với nhiều định nghĩa hoặc cách sử dụng khác. Nếu dữ liệu là (1, 1), (2, 2), (3, 3), (lớn hơn nhiều, lớn hơn nhiều) thì điểm lớn hơn nhiều thường được mô tả là ngoại lệ nhưng không có vấn đề gì phù hợp với mô hình. Bạn có thể (và nên) tự hỏi tại sao dữ liệu lại theo cách đó, nhưng việc lắp một mô hình rất dễ dàng. Tổng quát hơn, nguyên tắc là một ngoại lệ có thể được tách ra khỏi phần chính của dữ liệu nhưng vẫn phù hợp với một mô hình hợp lý.
Nick Cox

Thứ hai, nếu hàm ý bỏ qua các ngoại lệ chỉ là những gì bạn nên làm, thì (a) thường có vấn đề ngay cả khi nói rằng các ngoại lệ là (b) có nhiều giải pháp khác. Chủ đề thống kê.stackexchange.com /questions / 78063 / phạm vi rộng hơn so với tiêu đề của nó để đề cập đến một số.
Nick Cox

1
Nếu bạn theo liên kết của tôi, bạn sẽ thấy rằng tôi đã đăng ở một số độ dài trên các ngoại lệ. Tôi không có ý nghĩa gì khi đọc lại câu trả lời của bạn rằng bạn đang suy nghĩ lại khi bạn dường như đang nói về việc loại bỏ các ngoại lệ trong khi phù hợp. Khi đọc lại, tôi cũng lưu ý rằng câu đầu tiên của đoạn thứ hai của bạn bao gồm ý tưởng rằng sự bất thường có thể là 'xu hướng chung hoặc hành vi', không chắc là ý của bạn - hoặc nếu có, tôi không ' t hiểu nó
Nick Cox

1

Câu hỏi hay. Tuy nhiên, tìm kiếm trên google về "sự khác biệt giữa các trang web ngoại lệ và dị thường: .edu" cho thấy rằng không có sự khác biệt về mặt lý thuyết giữa hai thuật ngữ này. Chúng đang được sử dụng thay thế cho nhau trong văn học.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.