Sự khác biệt giữa Ngoại lệ và dị thường trong bối cảnh học máy là gì. Sự hiểu biết của tôi là cả hai đều đề cập đến cùng một điều.
Sự khác biệt giữa Ngoại lệ và dị thường trong bối cảnh học máy là gì. Sự hiểu biết của tôi là cả hai đều đề cập đến cùng một điều.
Câu trả lời:
Hai thuật ngữ là từ đồng nghĩa theo:
Aggarwal, Charu C. Phân tích ngoại lệ. Springer New York, 2017, đổi mới: http://dx.doi.org/10.1007/978-3-319-47578-3_1
Trích dẫn từ trang 1:
Outliers cũng được gọi là bất thường, bất hòa, lệch lạc hoặc bất thường trong tài liệu thống kê và khai thác dữ liệu.
Văn bản in đậm không phải là một phần của văn bản gốc.
Tải về miễn phí pdf của cuốn sách có sẵn từ tác giả ở đây.
Một câu trả lời tặc lưỡi:
Ngoại lệ: một giá trị mà bạn dự đoán sẽ tìm thấy trong dữ liệu cho biết mô hình của bạn không hoạt động đúng
Bất thường: một giá trị chống lại tất cả các tỷ lệ cược bạn tìm thấy trong dữ liệu cho biết mô hình của bạn hoạt động đúng
Một câu trả lời nghiêm túc hơn, ít khó hiểu hơn:
Khái niệm về các ngoại lệ bắt đầu từ vấn đề xây dựng một mô hình đưa ra các giả định về dữ liệu. Các ngoại lệ thường là các chỉ số cho thấy mô hình không mô tả đúng dữ liệu và do đó chúng ta nên đặt câu hỏi về kết quả của mô hình hoặc chất lượng dữ liệu của chúng tôi.
Khái niệm dị thường bắt đầu bên ngoài thế giới lý thuyết và bên trong thế giới ứng dụng: chúng tôi muốn tìm kiếm hành vi bất thường trong dữ liệu của mình, đôi khi bị thúc đẩy bởi thực tế là chúng tôi quan tâm đến việc tìm kiếm hành vi mà ai đó đang cố gắng che giấu (như virus trong một e-mail). Vấn đề là vì mọi người đang cố gắng che giấu những gì họ đang làm, chúng tôi không thực sự biết phải tìm gì. Vì vậy, chúng tôi lấy một bộ dữ liệu "tốt" và quyết định rằng bất cứ điều gì chúng tôi tìm thấy trong bộ dữ liệu mới của chúng tôi trông không "tốt" là một sự bất thường và đáng để chúng tôi kiểm tra chi tiết hơn. Thông thường, tìm kiếm sự bất thường có nghĩa là tìm kiếm các ngoại lệ trong bộ dữ liệu mới của bạn. Nhưng lưu ý rằng những giá trị này có thể rất phổ biến trong tập dữ liệu mới của bạn, mặc dù rất hiếm trong tập dữ liệu cũ của bạn!
Tóm lại, hai khái niệm này rất giống nhau về mặt thống kê đằng sau chúng (nghĩa là các giá trị bất thường được đưa ra cho mô hình được trang bị của bạn) nhưng đến từ ý tưởng từ các góc độ khác nhau. Ngoài ra, khi chúng ta nói về các ngoại lệ, chúng ta thường có nghĩa là một điểm dữ liệu bất thường trong dữ liệu được sử dụng để phù hợp với mô hình của chúng ta , trong đó, sự bất thường thường có nghĩa là một điểm dữ liệu bất thường trong bộ dữ liệu bên ngoài dữ liệu được sử dụng để phù hợp với mô hình của chúng ta .
Lưu ý: câu trả lời này dựa trên cách tôi đã thấy hai thuật ngữ thường được sử dụng thay vì các định nghĩa chính thức. Trải nghiệm người dùng có thể khác nhau.
Sự bất thường là kết quả không thể giải thích được cho phân phối cơ sở (không thể áp dụng nếu các giả định của chúng tôi là chính xác). Một ngoại lệ là một sự kiện không thể xảy ra với phân phối cơ sở (không có khả năng).
Các thuật ngữ được sử dụng chủ yếu theo cách có thể hoán đổi cho nhau. "Ngoại lệ" đề cập đến một cái gì đó nằm ngoài định mức - vì vậy nó là "dị thường". Nhưng tôi có một nhấn mạnh rằng "ngoại lệ" thường được sử dụng cho các quan sát rất hiếm . Trong thống kê, trên một bản phân phối bình thường, bạn sẽ coi ba sigma là ngoại lệ. Đó là 99,7% đối tượng của bạn được dự kiến là "bình thường". "Bất thường" được sử dụng tự do hơn nhiều. Nếu bạn đột nhiên có hàng triệu khách truy cập trên trang web của mình, đây không phải là những khách truy cập hiếm. Tuy nhiên, lượng khách tăng đột ngột vẫn là "dị thường", trong khi mỗi khách truy cập không phải là "ngoại lệ".
Có thể trong bài viết này tôi đã thấy những khác biệt này được thảo luận, nhưng tôi không thể truy cập nó ngay bây giờ, thật không may.
Phân tích thống kê và khai thác dữ liệu, Tập 5, Số 5, Tháng 10 năm 2012, Trang 363 Tắt387 Một khảo sát về phát hiện ngoại lệ không giám sát trong dữ liệu số chiều cao
Chỉ cần làm vũng nước hơn nữa, trong điều kiện khí hậu dị thường chỉ ngụ ý sự khác biệt giữa giá trị và giá trị trung bình, hoặc độ lệch:
Thuật ngữ dị thường nhiệt độ có nghĩa là xuất phát từ giá trị tham chiếu hoặc trung bình dài hạn. Một dị thường dương cho thấy nhiệt độ quan sát được ấm hơn giá trị tham chiếu, trong khi dị thường âm cho thấy nhiệt độ quan sát được mát hơn giá trị tham chiếu.
Điều đó cũng có thể được coi là học máy bên ngoài, nhưng những người quan tâm đến câu hỏi có thể quan tâm đến điều này.
, phù hợp hơn .
Một sự bất thường có thể là một điểm dữ liệu, hoặc cũng là một xu hướng hoặc hành vi chung được quan sát trong dữ liệu sau khi một mô hình đã được xây dựng hoặc sự hiểu biết về quá trình tạo dữ liệu được hình thành. Bạn phải đối mặt với sự bất thường vì hệ thống bắt đầu hoạt động khác đi hoặc bạn tìm kiếm các điểm dữ liệu đó, vì bạn muốn được thông báo khi một sự kiện xảy ra trong đó mô hình của bạn không hợp lệ. Bạn có thể quan tâm đến việc quan sát bất kỳ hành vi bất thường nào trong biên độ của sóng biển, không phải vì bạn muốn vứt bỏ những điểm dữ liệu đó và xây dựng một mô hình tốt hơn, mà bởi vì bạn muốn biết khi nào có thể xảy ra sóng thần.