(từ chối trách nhiệm: Hôm nay tôi không thể gõ tốt: bàn tay phải của tôi bị gãy!)
Trái với lời khuyên nên sử dụng một bài kiểm tra không tham số trong các câu trả lời khác, bạn nên xem xét rằng đối với các cỡ mẫu cực nhỏ, các phương pháp đó không hữu ích lắm. Thật dễ hiểu tại sao: trong các nghiên cứu với kích thước cực kỳ nhỏ, không có sự khác biệt giữa các nhóm có thể được thiết lập trừ khi có kích thước hiệu ứng lớn nếu được quan sát. Tuy nhiên, các phương pháp không tham số không quan tâm đến mức độ khác biệt giữa các nhóm. Do đó, ngay cả khi sự khác biệt giữa hai nhóm là rất lớn, với kích thước mẫu nhỏ, một thử nghiệm không tham số sẽ luôn không từ chối giả thuyết khống.
Xem xét ví dụ này: hai nhóm, phân phối bình thường, cùng phương sai. Nhóm 1: trung bình 1.0, 7 mẫu. Nhóm 2: trung bình 5, 2 mẫu. Có một sự khác biệt lớn giữa mức trung bình.
wilcox.test(rnorm(7, 1), rnorm(2, 5))
Wilcoxon rank sum test
data: rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556
Giá trị p được tính là 0,05556 không bác bỏ giả thuyết khống (ở 0,05). Bây giờ, ngay cả khi bạn tăng khoảng cách giữa hai phương tiện lên 10 lần, bạn sẽ nhận được cùng một giá trị p:
wilcox.test(rnorm(7, 1), rnorm(2, 50))
Wilcoxon rank sum test
data: rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556
Bây giờ tôi mời bạn lặp lại mô phỏng tương tự với thử nghiệm t và quan sát các giá trị p trong trường hợp chênh lệch lớn (trung bình 5 so với 1) và chênh lệch lớn (trung bình 50 so với 1).