Phân phối khoảng cách Mahalanobis ở mức độ quan sát


23

Nếu tôi có một mẫu iid bình thường đa biến , và xác định d 2 i ( b , Một ) = ( X i - b ) ' Một - 1 ( X i - b ) (là khoảng cách của khoảng cách Mahalanobis [bình phương] từ một điểm mẫu đến vectơ a sử dụng ma trận A phân phối của d là gìX1,,XnNp(μ,Σ)

di2(b,A)=(Xib)A1(Xib)
aA để tính trọng số), (khoảng cách mahalanobis với mẫu bình ˉ X bằng cách sử dụng mẫu hiệp phương sai ma trậnS)?di2(X¯,S)X¯S

Tôi đang tìm kiếm tại một giấy mà tuyên bố nó là , nhưng điều này rõ ràng là sai: các χ 2 p phân phối sẽ thu được để d 2χp2χp2bằng cách sử dụng (không rõ) dân số vector trung bình và ma trận hiệp phương sai. Khi các chất tương tự mẫu được cắm vào, người ta phải có được bảnphân phốiHotellingT2hoặcFđược chia tỷ lệdi2(μ,Σ)T 2 phân phối, hoặc một cái gì đó như thế, nhưng không phải là χ 2 p . Tôi không thể tìm thấy kết quả chính xác trongF()χp2 Muirhead (2005) , cũng như trongAnderson (2003) , cũng không ở Mardia, Kent và Bibby (1979, 2003) . Rõ ràng, những kẻ này không bận tâm đến chẩn đoán ngoại lệ, vì phân phối bình thường đa biến là hoàn hảo và dễ dàng thu được mỗi khi người ta thu thập dữ liệu đa biến: - /.

Mọi thứ có thể phức tạp hơn thế. Kết quả phân phối Hotelling dựa trên giả định tính độc lập giữa phần vectơ và phần ma trận; độc lập như vậy giữ cho ˉ XS , nhưng nó không còn giữ cho X iS .T 2X¯SXiS


Trong định nghĩa của , bạn vẫn xem X i là một biến ngẫu nhiên hay bây giờ bạn đang coi nó như một vectơ cố định? Bao gồm các mục con gợi ý cái sau, nhưng điều đó có vẻ hơi lạ. di2Xi
whuber

1
Chỉ cần một chút off-the-cuff lưu ý phụ, nhưng thông báo rằng là phụ trợ liên quan đến với LΣ i d 2 i ( ˉ X , S ) là tương đương với một hằng số cố định (nên được n - p , hoặc tương tự, tôi nghĩ) gần như chắc chắn. XiX¯μidi2(X¯,S)np
Đức hồng y

1
@whuber - có lẽ để nhấn mạnh rằng nó được tính bằng cách sử dụng một quan sát từ mẫu, không phải là một quan sát mới?
jbowman

1
@whuber, đại khái dọc theo dòng của jbowman đã nói - để chỉ ra rằng đây là một thống kê cấp độ quan sát (trái ngược với thống kê cấp độ mẫu, như ý nghĩa mẫu).
StasK

1
Sự phân bố của là một phiên bản beta, n / ( n - 1 ) 2 d 2 i ( ˉ X , S ) ~ B ( p / 2 , ( n - p - 1 ) /di2(X¯,S) , nhưng tôi vẫn đang tìm cách phân phối d 2 in/(n1)2di2(X¯,S)B(p/2,(np1)/2)di2(μ,S). Các bản phân phối của không độc lập. di2

Câu trả lời:


18

Kiểm tra Mô hình hỗn hợp Gaussian bằng cách khai thác khoảng cách Mahalanobis ( liên kết thay thế ). Xem trang số 13, cột thứ hai. Các tác giả cũng đưa ra một số bằng chứng cũng cho việc phân phối. Bản phân phối được chia tỷ lệ beta. Xin vui lòng cho tôi biết nếu điều này không làm việc cho bạn. Nếu không tôi có thể kiểm tra bất kỳ gợi ý trong cuốn sách SS Wilks vào ngày mai.


4
Câu trả lời trong bài báo là: n(n1)2di2(X¯,S)B(p2,np12)

9

Có 3 bản phân phối có liên quan. Như đã lưu ý, nếu các tham số dân số thực được sử dụng thì phân phối là bình phương vớidf= =p. Đây cũng là phân phối tiệm cận với các tham số ước tính và cỡ mẫu lớn.

Một câu trả lời khác đưa ra phân phối chính xác cho tình huống phổ biến nhất, với các tham số ước tính khi bản thân quan sát là một phần của bộ ước tính:

n(d2)(n-1)2~Beta(p2,(np1)2).
However, if the observation xi is independent of the parameter estimates, then the distribution is proportional to a Fisher's F-ratio distribution:
(nd2(np)(p(n1)(n+1))F(p,np)

Welcome to the site, @JoeSullivan. I took the liberty of using LATEX to make your equations easier to read. Please make sure they still say what you want.
gung - Reinstate Monica

can you give a reference for the F formula?
eyaler

1
one related reference, section 3 in Hardin, Johanna, and David M. Rocke. 2005. “The Distribution of Robust Distances.” Journal of Computational and Graphical Statistics 14 (4): 928–46. doi:10.1198/106186005X77685.
Josef
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.