Khoảng cách Mahalanobis, khi được sử dụng cho mục đích phân loại, thường giả sử phân phối bình thường đa biến và khoảng cách từ tâm sẽ theo phân phối (với độ tự do d bằng số lượng kích thước / tính năng). Chúng ta có thể tính xác suất một điểm dữ liệu mới thuộc về tập hợp sử dụng khoảng cách Mahalanobis của nó.
Tôi có các bộ dữ liệu không tuân theo phân phối chuẩn nhiều biến số ( ). Về lý thuyết, mỗi tính năng nên tuân theo một phân phối Poisson, và theo kinh nghiệm này có vẻ là trường hợp đối với nhiều người ( ≈ 200 ) tính năng, và những người không có trong tiếng ồn và có thể được lấy ra từ phân tích. Làm cách nào để phân loại điểm mới trên dữ liệu này?
Tôi đoán có hai thành phần:
- Công thức "khoảng cách Mahalanobis" thích hợp trên dữ liệu này là gì (tức là phân phối Poisson đa biến)? Có một sự khái quát của khoảng cách đến các bản phân phối khác?
- Cho dù tôi sử dụng khoảng cách Mahalanobis bình thường hoặc công thức khác, phân phối của các khoảng cách này là gì? Có một cách khác để làm bài kiểm tra giả thuyết?
Hoặc ...
Số lượng điểm dữ liệu đã biết trong mỗi lớp rất khác nhau, từ n = 1 (quá ít; tôi sẽ xác định mức tối thiểu theo kinh nghiệm) đến khoảng . Khoảng cách Mahalanobis chia tỷ lệ với , do đó, khoảng cách từ một mô hình / lớp tiếp theo không thể được so sánh trực tiếp. Khi dữ liệu được phân phối bình thường, kiểm tra chi bình phương cung cấp một cách để so sánh khoảng cách từ các mô hình khác nhau (ngoài việc cung cấp các giá trị quan trọng hoặc xác suất). Nếu có một cách khác để so sánh trực tiếp khoảng cách "giống như Mahalanobis", ngay cả khi nó không cung cấp xác suất, tôi có thể làm việc với điều đó.n