Tôi muốn biết sự khác biệt về các ứng dụng (ví dụ: ứng dụng nào là phát hiện gian lận thẻ tín dụng?) Và về mặt kỹ thuật được sử dụng.
Ví dụ giấy tờ xác định nhiệm vụ sẽ được hoan nghênh.
Tôi muốn biết sự khác biệt về các ứng dụng (ví dụ: ứng dụng nào là phát hiện gian lận thẻ tín dụng?) Và về mặt kỹ thuật được sử dụng.
Ví dụ giấy tờ xác định nhiệm vụ sẽ được hoan nghênh.
Câu trả lời:
Về cơ bản không có sự khác biệt. Giả sử bạn có dữ liệu và bạn muốn xây dựng một mô hình của nó. Như tên cho thấy, mô hình hóa là về việc tìm kiếm một mô hình, nghĩa là một biểu diễn đơn giản hóa dữ liệu của bạn. Đổi lại, chúng ta có thể xem mô hình như một quy trình cơ bản tạo ra dữ liệu của bạn ở nơi đầu tiên, cộng với một số nhiễu. Từ quan điểm đó, dữ liệu bạn nhìn thấy được tạo bởi mô hình - và chúng tôi có thể nói rằng một số điểm bạn thấy ít có khả năng được tạo bởi mô hình của bạn hơn các mô hình khác.
Ví dụ: nếu bạn xây dựng mô hình hồi quy tuyến tính, các điểm ở xa đường hồi quy sẽ ít có khả năng được tạo ra bởi mô hình. Đó là những gì mọi người muốn nói khi họ nói về 'phần dư' theo cách nói thống kê thông thường. Nó cũng được gọi là khả năng của dữ liệu.
Các điểm dữ liệu có khả năng thấp, theo mô hình bạn đã tạo, là sự bất thường hoặc ngoại lệ. Từ quan điểm xây dựng mô hình, chúng là cùng một thứ.
Thông thường, mọi người sử dụng thuật ngữ 'ngoại lệ' có nghĩa là "thứ gì đó tôi nên xóa khỏi bộ dữ liệu để nó không làm lệch mô hình của tôi mà tôi đang xây dựng", thường là vì họ có linh cảm rằng có gì đó không đúng với dữ liệu đó và mô hình họ muốn xây dựng không cần phải tính đến nó. Một ngoại lệ thường được coi là một trở ngại cho việc xây dựng một mô hình mô tả dữ liệu tổng thể - đơn giản vì mô hình sẽ C toNG cố gắng giải thích ngoại lệ, đó không phải là điều mà học viên muốn.
Mặt khác, bạn có thể sử dụng thực tế là một mô hình cũng gán khả năng cho từng điểm dữ liệu cho lợi thế của bạn - có thể xây dựng một mô hình mô tả xu hướng đơn giản hơn trong dữ liệu, sau đó chủ động tìm kiếm các giá trị hiện có hoặc mới khả năng thấp. Đây là những gì mọi người có nghĩa là khi họ nói 'bất thường'. Nếu mục tiêu của bạn là phát hiện sự bất thường, đặc biệt là trong dữ liệu mới, đây là một điều tuyệt vời. Ngoại lệ của một người là sự bất thường của người khác!
(Tôi thực sự muốn viết câu này như một câu trả lời cho câu hỏi Xác thực chéo: Sự khác biệt giữa Bất thường và Ngoại lệ , nhưng câu hỏi được bảo vệ - Tôi nghĩ rằng trả lời nó ở đây sẽ ổn, mặc dù tầm nhìn thấp hơn)
Mọi người thỉnh thoảng lập luận rằng không có sự khác biệt giữa ngoại lệ và dị thường bằng cách trích dẫn Charu Aggarwal, tác giả của cuốn sách "Phân tích ngoại lệ" - đặc biệt, tuyên bố này:
Outliers cũng được gọi là bất thường , bất hòa , lệch lạc hoặc bất thường trong tài liệu thống kê và khai thác dữ liệu.
(Nguồn: "Phân tích ngoại lệ" (Springer), Charu Aggarwal, 2017, http://charuaggarwal.net/outlierbook.pdf )
Tuy nhiên, tuyên bố này không ngụ ý rằng các ngoại lệ và dị thường là giống nhau - tương tự như nói rằng "Chó đôi khi được gọi là động vật" không có nghĩa là chúng giống nhau.
Thật khó để đưa ra một định nghĩa chính thức về các điều khoản. Các trang Wikipedia về giá trị ngoại biên đề cập đến trang Wikipedia về phát hiện bất thường và ngược lại, và cả hai đều chứa rất nhiều khả năng định nghĩa và giải thích các điều khoản. Mọi thứ đang trở nên tồi tệ hơn do các định nghĩa và thông tục cụ thể theo miền , nơi dường như là đủ khi hai người cùng lĩnh vực gần như biết những gì người kia đang nói về ...
Tuy nhiên, Varun Chandola cố gắng đưa ra một ý nghĩa chính xác hơn cho thuật ngữ "dị thường" trong khảo sát phát hiện dị thường của mình. Đặc biệt, ông phân loại dị thường thành ba loại:
(Tóm tắt từ "Anomaly Detection - Một khảo sát", Varun Chandola et al, Khảo sát ACM Computing 2009, http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf )
Ở đây, thuật ngữ "điểm bất thường" dường như gần nhất với những gì tôi coi là một định nghĩa có thể có của từ "ngoại lệ". Và điều này phù hợp với tuyên bố của Aggarwal: Một ngoại lệ là một sự bất thường. Nhưng không phải mọi sự bất thường là một ngoại lệ.
(Cái sau có thể phụ thuộc vào định nghĩa của từ ngoại lệ. Tất nhiên, người ta có thể định nghĩa nó ở cấp độ meta và nói rằng ngoại lệ là bất cứ thuật toán phát hiện ngoại lệ nào (hoặc mô hình) nào đó phát hiện như vậy. Nhưng hầu hết các định nghĩa Tôi đã gặp cho đến nay dựa trên một số loại "khoảng cách", "không giống nhau" hoặc "khác biệt" từ "đa số" các yếu tố dữ liệu khác. Nghe có vẻ hợp lý ...)
Một ví dụ: Có thể có một số điểm dữ liệu:
14.5, 14.2, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
Người ta có thể tính toán độ lệch trung bình và độ lệch chuẩn và sẽ có một thời gian khó để tranh luận tại sao một trong những điểm này phải là một "ngoại lệ".
Đối với một chuỗi các điểm dữ liệu như thế này
14.5, 14.2, 14.4, 14.4, -64564.4, 14.4, 14.4, 14.4, 14.4, 14.3, 14.2, 14.6
phát hiện "ngoại lệ" nên dễ dàng.
Tuy nhiên, giả sử rằng chuỗi đầu tiên mô tả, ví dụ, nhiệt độ trung bình bên ngoài hàng ngày, thực tế là nhiệt độ trung bình chính xác của 14.4
độ được đo trong cả tuần chắc chắn có thể được coi là "dị thường".
(Có lẽ là "sự bất thường tập thể" theo các định nghĩa ở trên, nhưng tôi sẽ không tranh luận về điều đó ...)
Mặc dù tôi đang ở trên băng mỏng khi tranh luận về ý nghĩa chính xác hoặc trực quan của một số thuật ngữ nhất định (vì tôi không phải là chuyên gia khoa học dữ liệu cũng không phải là người nói tiếng Anh bản địa), điều này có nghĩa là "dị thường" là một thuật ngữ rộng hơn nhiều so với "ngoại lệ" ". Nhưng có lẽ cộng đồng khoa học dữ liệu chỉ đang trong quá trình phân loại các định nghĩa đúng về các thuật ngữ này.
Cập nhật:
Có lẽ cảm giác ruột của tôi về nghĩa đen của những từ nhất định là sai. Nhưng đối với tôi, từ "ngoại lệ" dường như nói "nằm ở đâu đó (hoặc cách xa) một cái gì đó (dựa trên một số đo khoảng cách)". Theo nghĩa đó, 14.4
s trong ví dụ đầu tiên không phải là "ngoại lệ" mỗi se. Nhưng tất nhiên, mọi thứ trở nên khó khăn rất nhanh ở đây: Người ta có thể tưởng tượng một mô hình cho dữ liệu chứa số ngày liên tiếp có nhiệt độ bằng nhau (như trong mã hóa độ dài chạy ). Tính toán mô hình này cho dữ liệu đã cho sẽ mang lại
1 * 14.5
1 * 14.2
7 * 14.4
1 * 14.3
1 * 14.2
1 * 14.6
trong đó giá trị 7
không có khoảng cách lớn (sự khác biệt) với các giá trị khác trong mô hình. Vì vậy, "dị thường tập thể" trong 7 ngày liên tiếp với nhiệt độ bằng nhau đã bị biến thành "dị thường điểm" bởi sự biến đổi này.
Một ngoại lệ là một điểm dữ liệu khác thường.
Một sự bất thường là một trường hợp đặc biệt của các ngoại lệ, họ có thể có thông tin hoặc lý do đặc biệt / hữu ích.