Làm thế nào để kiểm tra xem hai phân phối đa biến được lấy mẫu từ cùng một quần thể cơ bản?

13

Giả sử bạn được cung cấp hai bộ dữ liệu đa biến, giả sử một bộ cũ và một bộ dữ liệu mới và chúng được tạo ra bởi cùng một quy trình (mà bạn không có mô hình nào) nhưng có lẽ, ở đâu đó dọc theo dòng thu thập / tạo dữ liệu, một cái gì đó đã đi sai Bạn sẽ không muốn sử dụng dữ liệu mới, như, một bộ xác thực cho dữ liệu cũ hoặc để thêm vào dữ liệu cũ.

Bạn có thể thực hiện một loạt các số liệu thống kê 1-d (mỗi biến), ví dụ tổng xếp hạng Wilcoxon và thử một số hiệu chỉnh thử nghiệm nhưng tôi không chắc chắn điều đó là tối ưu (để nắm bắt được sự phức tạp của dữ liệu đa biến chứ đừng nói đến các vấn đề đa thử nghiệm). Một cách là sử dụng trình phân loại và xem liệu bạn có thể phân biệt giữa hai bộ dữ liệu hay không (đưa ra một trình phân loại tối ưu là tối ưu). Điều đó có vẻ hiệu quả nhưng vẫn là một) perhpas có cách tốt hơn b) Nó không thực sự được thiết kế để cho bạn biết tại sao nó khác (nếu không có gì khác, nó sẽ sử dụng các dự đoán tốt nhất và có thể bỏ lỡ các dự đoán tốt khác bị hạ thấp bởi những người tốt hơn)

multivariate-analysis

— một viên kim cương
nguồn

3

http://131.95.113.139/courses/multivariate/mantel.pdf

Thảo luận về hai cách có thể làm điều đó nếu bộ dữ liệu của bạn có cùng kích thước. Cách tiếp cận cơ bản là tính toán một thước đo khoảng cách giữa hai ma trận quan sát của bạn. Sau đó, để xác định xem khoảng cách đó có đáng kể hay không, bạn sử dụng phép thử hoán vị .

Nếu bộ dữ liệu của bạn không cùng kích thước thì bạn có thể sử dụng thử nghiệm đối sánh chéo mặc dù nó có vẻ không phổ biến lắm. Thay vì kiểm tra đối sánh chéo, bạn có thể thử lên hoặc xuống lấy mẫu dữ liệu của mình để chúng có cùng kích thước, sau đó sử dụng một trong các phương pháp được đề cập trong bài báo đầu tiên.

— Amit Deshwar
nguồn

Bạn đề cập đến nếu chúng tôi có bộ dữ liệu kích thước không đồng đều, hãy sử dụng thử nghiệm đối sánh chéo. Tuy nhiên, theo bài báo mà bạn đề cập, họ sử dụng các bộ dữ liệu bằng nhau và tìm cách ghép nối dựa trên khoảng cách. Bạn đã tìm thấy bất kỳ bằng chứng về việc này đang được sử dụng? ngay cả trong các ghi chú phát hành cho kết hợp chéo, ví dụ này sử dụng các bộ dữ liệu bằng nhau

— lukeg 24/07/2015

1

Tra cứu Hotelling's T ^ 2, hoặc nếu yoy có dữ liệu thực sự mờ, hãy xem tại đây: http://normaldeviate.wordpress.com/2012/07/14/modern-two-sample-tests/

— kjetil b halvorsen
nguồn