Kiểm tra xem phân phối đa chiều có giống nhau không


15

Hãy nói rằng tôi có hai hoặc nhiều quần thể vectơ có giá trị liên tục n chiều. Có cách nào để kiểm tra nếu các mẫu này có cùng phân phối không? Nếu vậy, có một chức năng trong R hoặc python cho điều này?


2
Thử nghiệm Kolmogorov - Smirnov là một công cụ phi tham số điển hình để kiểm tra xem hai phân phối có giống nhau hay không. Tôi không quen thuộc với nó, nhưng wikipedia đề cập đến Justel, A., Peña, D. và Zamar, R. (1997) Một bài kiểm tra Kolmogorov-Smirnov đa biến về mức độ phù hợp, Số liệu thống kê & Xác suất, 35 (3), 251-259 . cho một phần mở rộng đa biến của bài kiểm tra này.
Macro

1
Có một câu hỏi CV giải quyết vấn đề này theo hai chiều: stats.stackexchange.com/questions/25946/ . Ngay cả trong hai chiều, không có cách tiêu chuẩn để làm điều đó.
Flounderer

Câu trả lời:


8

Tôi mới thực hiện nhiều nghiên cứu về hai bài kiểm tra mẫu khi tôi nhận ra rằng bài kiểm tra Kolmogorov-Smirnov không phải là đa biến. Vì vậy, tôi đã xem xét nghiệm Chi, các tiêu chí của Hotelling T ^ 2, Anderson-Darling, Cramer-von Mises, Shapiro-Wilk, v.v. Bạn phải cẩn thận vì một số thử nghiệm này dựa trên các vectơ được so sánh là giống nhau chiều dài. Những người khác chỉ được sử dụng để từ chối giả định về tính quy tắc, không so sánh hai phân phối mẫu.

Giải pháp hàng đầu dường như so sánh các hàm phân phối tích lũy của hai mẫu với tất cả các thứ tự có thể, như bạn có thể nghi ngờ, rất chuyên sâu về mặt tính toán, theo thứ tự vài phút cho một lần chạy mẫu chứa vài nghìn bản ghi:

https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf

Như tài liệu của Xiao nói, bài kiểm tra Fasano và Franceschini là một biến thể của bài kiểm tra Peacock:

http://adsabs.harvard.edu/abs/1987MNRAS.225..155F

Thử nghiệm Fasano và Franceschini được dự định đặc biệt là ít tính toán chuyên sâu, nhưng tôi chưa tìm thấy việc thực hiện công việc của họ ở R.

Đối với những người muốn khám phá các khía cạnh tính toán của bài kiểm tra Peacock so với Fasano và Franceschini, hãy kiểm tra các thuật toán tính toán hiệu quả cho bài kiểm tra KolmogorovTHER Smirnov hai chiều


Phân phối tích lũy cho đa biến là gì?
Aksakal

2
F(x,y)= =P(X<x,Y<y)pF(x,y)= =ΣTôi= =1nTôi(XTôi<x,YTôi<y)/n

2
Đẹp và súc tích, AdamO. Bài kiểm tra Peacock có vẻ hết sức ngớ ngẩn khi không cắt tỉa, như Fasano và Franceschini làm. Hãy hy vọng ai đó quyết định mã hóa nó một ngày cho R. Điều này đặc biệt hữu ích cho tốc độ khi bạn có các bản ghi bị phân tách hơn nữa, có thể bởi một biến phân loại và muốn xem liệu phân tách của bạn có thực sự được rút ra từ các bản phân phối khác nhau hay không.
L Fischman


1

Có, có những cách kiểm tra không theo quy chuẩn nếu hai mẫu đa biến từ cùng một phân phối chung. Tôi sẽ đề cập đến các chi tiết không bao gồm những chi tiết được đề cập bởi L Fischman . Vấn đề cơ bản mà bạn đang hỏi có thể được gọi là 'Vấn đề hai mẫu' và một lượng lớn nghiên cứu đang diễn ra trên các tạp chí như Tạp chí Nghiên cứu Máy họcBiên niên sử Thống kê và các vấn đề khác. Với kiến ​​thức nhỏ của tôi về vấn đề này, tôi có thể đưa ra hướng như sau

  • Một cách gần đây để kiểm tra các bộ mẫu đa biến là thông qua Sai lệch trung bình tối đa (MMD); tài liệu liên quan: Arthur Gretton 2012 , Bharath 2010 và những người khác. Các phương pháp liên quan khác có thể được tìm thấy trong các bài viết nghiên cứu này. Nếu quan tâm, xin vui lòng đi qua các bài viết trích dẫn các bài viết này, để có được một bức tranh lớn về nghệ thuật trong vấn đề này. Và CÓ, cho điều này có triển khai R.

Nếu sở thích của bạn là so sánh các tập hợp điểm khác nhau (bộ mẫu) với tập hợp điểm tham chiếu, để xem mức độ gần đúng của tập hợp điểm tham chiếu, bạn có thể sử dụng phân kỳ f .

  • Một trường hợp đặc biệt phổ biến của điều này là Kullback-Leibler Divergence . Điều này được sử dụng trong nhiều chế độ học máy. Điều này một lần nữa có thể được thực hiện theo hai cách np; thông qua cách tiếp cận parzen window (kernel) và công cụ ước tính K-Recent Neighbor PDF.

Cũng có thể có những cách khác để tiếp cận, câu trả lời này không phải là cách xử lý toàn diện cho câu hỏi của bạn;)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.