Khoảng cách Mahalanobis trên dữ liệu không bình thường


8

Khoảng cách Mahalanobis, khi được sử dụng cho mục đích phân loại, thường giả sử phân phối bình thường đa biến và khoảng cách từ tâm sẽ theo phân phối (với độ tự do d bằng số lượng kích thước / tính năng). Chúng ta có thể tính xác suất một điểm dữ liệu mới thuộc về tập hợp sử dụng khoảng cách Mahalanobis của nó.χ2d

Tôi có các bộ dữ liệu không tuân theo phân phối chuẩn nhiều biến số ( ). Về lý thuyết, mỗi tính năng nên tuân theo một phân phối Poisson, và theo kinh nghiệm này có vẻ là trường hợp đối với nhiều người (200 ) tính năng, và những người không có trong tiếng ồn và có thể được lấy ra từ phân tích. Làm cách nào để phân loại điểm mới trên dữ liệu này?d1000200

Tôi đoán có hai thành phần:

  1. Công thức "khoảng cách Mahalanobis" thích hợp trên dữ liệu này là gì (tức là phân phối Poisson đa biến)? Có một sự khái quát của khoảng cách đến các bản phân phối khác?
  2. Cho dù tôi sử dụng khoảng cách Mahalanobis bình thường hoặc công thức khác, phân phối của các khoảng cách này là gì? Có một cách khác để làm bài kiểm tra giả thuyết?

Hoặc ...

Số lượng điểm dữ liệu đã biết trong mỗi lớp rất khác nhau, từ n = 1 (quá ít; tôi sẽ xác định mức tối thiểu theo kinh nghiệm) đến khoảng . Khoảng cách Mahalanobis chia tỷ lệ với , do đó, khoảng cách từ một mô hình / lớp tiếp theo không thể được so sánh trực tiếp. Khi dữ liệu được phân phối bình thường, kiểm tra chi bình phương cung cấp một cách để so sánh khoảng cách từ các mô hình khác nhau (ngoài việc cung cấp các giá trị quan trọng hoặc xác suất). Nếu có một cách khác để so sánh trực tiếp khoảng cách "giống như Mahalanobis", ngay cả khi nó không cung cấp xác suất, tôi có thể làm việc với điều đó.nn=1nn=6000n

Câu trả lời:


6

Bạn có thể muốn kiểm tra Karlis và Meligkotsidou, "hồi quy đa biến với cấu trúc hiệp phương sai". 2005. Bài viết này nói về những nỗ lực của các tác giả để mô hình hóa các biến Poisson đa biến, mà họ thừa nhận là một nhiệm vụ khó khăn.

Sử dụng khoảng cách của Mahalanobis ngụ ý rằng suy luận có thể được thực hiện thông qua ma trận trung bình và hiệp phương sai - và đó chỉ là một tính chất của phân phối bình thường. Nếu bạn sử dụng MD trên dữ liệu của mình, về cơ bản bạn đang giả vờ rằng chúng là Bình thường.


Tôi nghĩ rằng tôi cũng sẽ đề cập đến Tiku, et al, "Khoảng cách Mahalanobis dưới sự phi quy tắc", 2010 (mà tôi đang chờ đợi) và Ekstrom, "Mahalanobis Khoảng cách phân phối bình thường", 2011 (không giúp tôi nhưng có thể giúp tôi có người khác giúp tôi).
jmilloy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.