Hãy nói rằng tôi có hai hoặc nhiều quần thể vectơ có giá trị liên tục n chiều. Có cách nào để kiểm tra nếu các mẫu này có cùng phân phối không? Nếu vậy, có một chức năng trong R hoặc python cho điều này?
Hãy nói rằng tôi có hai hoặc nhiều quần thể vectơ có giá trị liên tục n chiều. Có cách nào để kiểm tra nếu các mẫu này có cùng phân phối không? Nếu vậy, có một chức năng trong R hoặc python cho điều này?
Câu trả lời:
Tôi mới thực hiện nhiều nghiên cứu về hai bài kiểm tra mẫu khi tôi nhận ra rằng bài kiểm tra Kolmogorov-Smirnov không phải là đa biến. Vì vậy, tôi đã xem xét nghiệm Chi, các tiêu chí của Hotelling T ^ 2, Anderson-Darling, Cramer-von Mises, Shapiro-Wilk, v.v. Bạn phải cẩn thận vì một số thử nghiệm này dựa trên các vectơ được so sánh là giống nhau chiều dài. Những người khác chỉ được sử dụng để từ chối giả định về tính quy tắc, không so sánh hai phân phối mẫu.
Giải pháp hàng đầu dường như so sánh các hàm phân phối tích lũy của hai mẫu với tất cả các thứ tự có thể, như bạn có thể nghi ngờ, rất chuyên sâu về mặt tính toán, theo thứ tự vài phút cho một lần chạy mẫu chứa vài nghìn bản ghi:
https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf
Như tài liệu của Xiao nói, bài kiểm tra Fasano và Franceschini là một biến thể của bài kiểm tra Peacock:
http://adsabs.harvard.edu/abs/1987MNRAS.225..155F
Thử nghiệm Fasano và Franceschini được dự định đặc biệt là ít tính toán chuyên sâu, nhưng tôi chưa tìm thấy việc thực hiện công việc của họ ở R.
Đối với những người muốn khám phá các khía cạnh tính toán của bài kiểm tra Peacock so với Fasano và Franceschini, hãy kiểm tra các thuật toán tính toán hiệu quả cho bài kiểm tra KolmogorovTHER Smirnov hai chiều
Gói n np (không tham số) có một bài kiểm tra về sự bằng nhau về mật độ của dữ liệu liên tục và phân loại sử dụng mật độ bình phương tích hợp. Li, Maasoumi và Racine (2009)
Cũng như np pdf có điều kiện trong phần 6 .
Có, có những cách kiểm tra không theo quy chuẩn nếu hai mẫu đa biến từ cùng một phân phối chung. Tôi sẽ đề cập đến các chi tiết không bao gồm những chi tiết được đề cập bởi L Fischman . Vấn đề cơ bản mà bạn đang hỏi có thể được gọi là 'Vấn đề hai mẫu' và một lượng lớn nghiên cứu đang diễn ra trên các tạp chí như Tạp chí Nghiên cứu Máy học và Biên niên sử Thống kê và các vấn đề khác. Với kiến thức nhỏ của tôi về vấn đề này, tôi có thể đưa ra hướng như sau
Nếu sở thích của bạn là so sánh các tập hợp điểm khác nhau (bộ mẫu) với tập hợp điểm tham chiếu, để xem mức độ gần đúng của tập hợp điểm tham chiếu, bạn có thể sử dụng phân kỳ f .
Cũng có thể có những cách khác để tiếp cận, câu trả lời này không phải là cách xử lý toàn diện cho câu hỏi của bạn;)