Dự toán mật độ ở đâu hữu ích?


13

Sau khi trải qua một số toán học hơi ngắn gọn, tôi nghĩ rằng tôi có một trực giác nhỏ về ước tính mật độ hạt nhân. Nhưng tôi cũng nhận thấy rằng việc ước tính mật độ đa biến cho hơn ba biến có thể không phải là một ý tưởng hay, xét về các thuộc tính thống kê của các công cụ ước tính của nó.

Vì vậy, trong các loại tình huống tôi muốn ước tính, giả sử, mật độ bivariate bằng các phương pháp không tham số? Có đủ giá trị để bắt đầu lo lắng về việc ước tính nó cho nhiều hơn hai biến không?

Nếu bạn có thể chỉ ra một số liên kết hữu ích liên quan đến việc áp dụng ước tính mật độ đa biến, điều đó thật tuyệt.

Câu trả lời:


15

Một trường hợp điển hình cho việc áp dụng ước tính mật độ là phát hiện mới, hay còn gọi là phát hiện ngoại lệ, trong đó ý tưởng là bạn chỉ (hoặc chủ yếu) có dữ liệu thuộc một loại, nhưng bạn quan tâm đến dữ liệu riêng biệt rất hiếm, có chất lượng, khác biệt đáng kể so với những trường hợp phổ biến

Ví dụ là phát hiện gian lận, phát hiện lỗi trong hệ thống, v.v. Đây là những tình huống rất khó khăn và / hoặc tốn kém để thu thập dữ liệu thuộc loại bạn quan tâm. Những trường hợp hiếm gặp này, tức là những trường hợp có xác suất xảy ra thấp.

Hầu hết các lần bạn không quan tâm đến việc ước tính chính xác phân phối chính xác, nhưng về tỷ lệ cược tương đối (khả năng một mẫu nhất định là ngoại lệ thực tế so với không phải là một).

Có hàng tá hướng dẫn và đánh giá về chủ đề này. Đây là một có thể là một trong những tốt để bắt đầu.

EDIT: đối với một số người có vẻ kỳ quặc khi sử dụng ước tính mật độ để phát hiện ngoại lệ. Trước tiên chúng ta hãy đồng ý về một điều: khi ai đó phù hợp với mô hình hỗn hợp với dữ liệu của anh ta, anh ta thực sự đang thực hiện ước tính mật độ. Một mô hình hỗn hợp đại diện cho một phân phối xác suất.

kNN và GMM thực sự có liên quan với nhau: chúng là hai phương pháp ước tính mật độ xác suất như vậy. Đây là ý tưởng cơ bản cho nhiều phương pháp tiếp cận trong phát hiện mới lạ. Ví dụ: cái này dựa trên kNN, cái kia dựa trên cửa sổ Parzen (nhấn mạnh chính ý tưởng này ở đầu bài) và nhiều cái khác .

Dường như với tôi (nhưng đó chỉ là nhận thức cá nhân của tôi) mà hầu hết nếu không phải tất cả đều hoạt động trên ý tưởng này. Làm thế nào khác bạn sẽ thể hiện ý tưởng về một sự kiện bất thường / hiếm gặp?


Ghi chú đặt bạn phác thảo (phần 6, "cách tiếp cận dựa trên mật độ") phác thảo một số cách tiếp cận rất bí truyền (khác xa với dòng văn bản trung bình và phát triển yên tĩnh về chủ đề này) để phát hiện ngoại lệ. Chắc chắn, các ứng dụng phổ biến hơn phải tồn tại.
user603

2
Xin lỗi, tôi không hiểu bình luận của bạn. Hai ví dụ rất cơ bản sẽ là kNN và GMM. Hai phương pháp này cung cấp các ước tính về mật độ xác suất và có thể được sử dụng cho các trường hợp như vậy.
jpmuc

Cảm ơn. GMM là gì? Tôi không nghĩ rằng kNN là một cách tiếp cận dòng trung bình để phát hiện ngoại lệ. Bạn có thể tham khảo một cuốn sách giáo khoa gần đây về số liệu thống kê mạnh mẽ, nơi nó được sử dụng trong bối cảnh đó không? (Tôi đã xem các giấy tờ trong bộ slide mà bạn đã chỉ ra rằng liên quan đến phát hiện ngoại lệ dường như là thủ tục hội nghị hoặc sách cũ)
user603

Mô hình hỗn hợp GMM = gaussian. Trong các slide họ đề cập đến điểm số dựa trên kNNs. Cá nhân tôi đã sử dụng SVM để phát hiện mới. Đáng tiếc tôi không thể giới thiệu cho bạn một cuốn sách giáo khoa cụ thể. Có thể những ghi chú này ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) là đủ.
jpmuc

1
Tôi đồng ý mạnh mẽ với @ user603. Ước tính mật độ thoạt nhìn là một cách rất kỳ quặc và gián tiếp để cố gắng tìm ra các ngoại lệ. Câu trả lời của bạn sẽ được tăng cường bằng cách tóm tắt cách áp dụng nó trong thực tế - và tại sao bạn nghĩ rằng nó hoạt động tốt.
Nick Cox

4

(xTôi)

fh(x)αΣxTôiđiểm kinh nghiệm(-(xTôi-x)TΣ-1(xTôi-x)),
Σ-1xTôi

4

Thông thường , KDE được quảng cáo là một thay thế cho biểu đồ. Ưu điểm chính của KDE so với biểu đồ, trong bối cảnh này, là làm giảm bớt ảnh hưởng của các tham số được chọn tùy ý trên đầu ra trực quan của thủ tục. Cụ thể (và như được minh họa trong liên kết ở trên), KDE không cần người dùng chỉ định điểm bắt đầu và điểm kết thúc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.