Giả sử bạn được cung cấp hai bộ dữ liệu đa biến, giả sử một bộ cũ và một bộ dữ liệu mới và chúng được tạo ra bởi cùng một quy trình (mà bạn không có mô hình nào) nhưng có lẽ, ở đâu đó dọc theo dòng thu thập / tạo dữ liệu, một cái gì đó đã đi sai Bạn sẽ không muốn sử dụng dữ liệu mới, như, một bộ xác thực cho dữ liệu cũ hoặc để thêm vào dữ liệu cũ.
Bạn có thể thực hiện một loạt các số liệu thống kê 1-d (mỗi biến), ví dụ tổng xếp hạng Wilcoxon và thử một số hiệu chỉnh thử nghiệm nhưng tôi không chắc chắn điều đó là tối ưu (để nắm bắt được sự phức tạp của dữ liệu đa biến chứ đừng nói đến các vấn đề đa thử nghiệm). Một cách là sử dụng trình phân loại và xem liệu bạn có thể phân biệt giữa hai bộ dữ liệu hay không (đưa ra một trình phân loại tối ưu là tối ưu). Điều đó có vẻ hiệu quả nhưng vẫn là một) perhpas có cách tốt hơn b) Nó không thực sự được thiết kế để cho bạn biết tại sao nó khác (nếu không có gì khác, nó sẽ sử dụng các dự đoán tốt nhất và có thể bỏ lỡ các dự đoán tốt khác bị hạ thấp bởi những người tốt hơn)