Một trường hợp điển hình cho việc áp dụng ước tính mật độ là phát hiện mới, hay còn gọi là phát hiện ngoại lệ, trong đó ý tưởng là bạn chỉ (hoặc chủ yếu) có dữ liệu thuộc một loại, nhưng bạn quan tâm đến dữ liệu riêng biệt rất hiếm, có chất lượng, khác biệt đáng kể so với những trường hợp phổ biến
Ví dụ là phát hiện gian lận, phát hiện lỗi trong hệ thống, v.v. Đây là những tình huống rất khó khăn và / hoặc tốn kém để thu thập dữ liệu thuộc loại bạn quan tâm. Những trường hợp hiếm gặp này, tức là những trường hợp có xác suất xảy ra thấp.
Hầu hết các lần bạn không quan tâm đến việc ước tính chính xác phân phối chính xác, nhưng về tỷ lệ cược tương đối (khả năng một mẫu nhất định là ngoại lệ thực tế so với không phải là một).
Có hàng tá hướng dẫn và đánh giá về chủ đề này. Đây là một có thể là một trong những tốt để bắt đầu.
EDIT: đối với một số người có vẻ kỳ quặc khi sử dụng ước tính mật độ để phát hiện ngoại lệ. Trước tiên chúng ta hãy đồng ý về một điều: khi ai đó phù hợp với mô hình hỗn hợp với dữ liệu của anh ta, anh ta thực sự đang thực hiện ước tính mật độ. Một mô hình hỗn hợp đại diện cho một phân phối xác suất.
kNN và GMM thực sự có liên quan với nhau: chúng là hai phương pháp ước tính mật độ xác suất như vậy. Đây là ý tưởng cơ bản cho nhiều phương pháp tiếp cận trong phát hiện mới lạ. Ví dụ: cái này dựa trên kNN, cái kia dựa trên cửa sổ Parzen (nhấn mạnh chính ý tưởng này ở đầu bài) và nhiều cái khác .
Dường như với tôi (nhưng đó chỉ là nhận thức cá nhân của tôi) mà hầu hết nếu không phải tất cả đều hoạt động trên ý tưởng này. Làm thế nào khác bạn sẽ thể hiện ý tưởng về một sự kiện bất thường / hiếm gặp?