Các thử nghiệm so sánh phân phối là thử nghiệm loại trừ. Họ bắt đầu với giả thuyết khống rằng 2 quần thể giống hệt nhau, sau đó cố gắng bác bỏ giả thuyết đó. Chúng tôi không bao giờ có thể chứng minh null là đúng, chỉ cần từ chối nó, vì vậy những thử nghiệm này thực sự không thể được sử dụng để chỉ ra rằng 2 mẫu đến từ cùng một quần thể (hoặc dân số giống hệt nhau).
Điều này là do có thể có sự khác biệt nhỏ trong các bản phân phối (có nghĩa là chúng không giống nhau), nhưng nhỏ đến mức các bài kiểm tra không thể thực sự tìm thấy sự khác biệt.
Hãy xem xét 2 phân phối, lần đầu tiên là thống nhất từ 0 đến 1, lần thứ hai là hỗn hợp của 2 đồng phục, vì vậy nó là 1 giữa 0 và 0,999 và cũng là 1 giữa 9,999 và 10 (0 ở nơi khác). Vì vậy, rõ ràng các phân phối này là khác nhau (cho dù sự khác biệt có ý nghĩa hay không là một câu hỏi khác), nhưng nếu bạn lấy cỡ mẫu là 50 từ mỗi (tổng số 100) thì có hơn 90% khả năng bạn sẽ chỉ thấy các giá trị trong khoảng từ 0 đến 0,999 và không thể thấy bất kỳ sự khác biệt thực sự.
Có nhiều cách để thực hiện cái được gọi là kiểm tra tương đương trong đó bạn hỏi xem 2 phân phối / quần thể có tương đương không, nhưng bạn cần xác định những gì bạn cho là tương đương. Thông thường, một số thước đo khác biệt nằm trong một phạm vi nhất định, nghĩa là chênh lệch trong 2 phương tiện nhỏ hơn 5% so với trung bình của 2 phương tiện, hoặc thống kê của KS nằm dưới ngưỡng giới hạn, v.v. Nếu bạn sau đó có thể tính toán khoảng tin cậy cho thống kê chênh lệch (chênh lệch của phương tiện có thể chỉ là khoảng tin cậy t, bootstrapping, mô phỏng hoặc các phương pháp khác có thể cần thiết cho các thống kê khác). Nếu toàn bộ khoảng tin cậy rơi vào "vùng tương đương" thì chúng tôi coi 2 quần thể / phân phối là "tương đương".
Phần khó là tìm ra vùng tương đương sẽ là gì.