Tôi sẽ không nói rằng các mẫu thử nghiệm phương sai một mẫu cổ điển (bao gồm cả cặp) và hai mẫu bằng nhau là chính xác, nhưng có rất nhiều lựa chọn thay thế có tính chất tuyệt vời và trong nhiều trường hợp nên sử dụng chúng.
Tôi cũng không nói rằng khả năng thực hiện nhanh chóng các xét nghiệm Wilcoxon-Mann-Whitney trên các mẫu lớn - hoặc thậm chí là các xét nghiệm hoán vị - là gần đây, tôi đã làm cả hai cách đây hơn 30 năm khi còn là một sinh viên và khả năng thực hiện điều đó đã có đã có sẵn trong một thời gian dài tại thời điểm đó.
†
Vì vậy, đây là một số lựa chọn thay thế, và tại sao chúng có thể giúp:
Welch-Satterthwaite - khi bạn không tự tin phương sai sẽ gần bằng nhau (nếu kích thước mẫu là như nhau, giả định phương sai bằng nhau là không quan trọng)
Wilcoxon-Mann-Whitney - Tuyệt vời nếu đuôi là bình thường hoặc nặng hơn bình thường, đặc biệt trong các trường hợp gần với đối xứng. Nếu đuôi có xu hướng gần với bình thường, thử nghiệm hoán vị trên phương tiện sẽ cung cấp nhiều năng lượng hơn một chút.
kiểm tra t mạnh mẽ - có nhiều loại trong số này có sức mạnh tốt ở mức bình thường nhưng cũng hoạt động tốt (và giữ được sức mạnh tốt) dưới các phương án nặng hơn hoặc hơi lệch.
GLM - hữu ích cho số lượng hoặc trường hợp nghiêng phải liên tục (ví dụ gamma) chẳng hạn; được thiết kế để đối phó với các tình huống trong đó phương sai có liên quan đến trung bình.
hiệu ứng ngẫu nhiên hoặc mô hình chuỗi thời gian có thể hữu ích trong trường hợp có các hình thức phụ thuộc cụ thể
Phương pháp tiếp cận Bayes , bootstrapping và rất nhiều kỹ thuật quan trọng khác có thể mang lại lợi thế tương tự cho các ý tưởng trên. Ví dụ, với cách tiếp cận Bayes, hoàn toàn có thể có một mô hình có thể giải thích cho quá trình gây ô nhiễm, xử lý số lượng hoặc dữ liệu sai lệch và xử lý tất cả các hình thức phụ thuộc cụ thể cùng một lúc .
Trong khi có rất nhiều lựa chọn thay thế tiện dụng tồn tại, thử nghiệm t mẫu hai mẫu bằng phương sai tiêu chuẩn cũ thường có thể hoạt động tốt trong các mẫu lớn, kích thước bằng nhau miễn là dân số không quá xa bình thường (chẳng hạn như đuôi rất nặng / skew) và chúng tôi có sự độc lập gần.
Các lựa chọn thay thế rất hữu ích trong một loạt các tình huống mà chúng ta có thể không tự tin với thử nghiệm t đơn giản ... và tuy nhiên thường hoạt động tốt khi các giả định của thử nghiệm t được đáp ứng hoặc gần đạt được.
Welch là một mặc định hợp lý nếu phân phối có xu hướng không đi quá xa so với bình thường (với các mẫu lớn hơn cho phép nhiều thời gian hơn).
Mặc dù thử nghiệm hoán vị là tuyệt vời, không mất năng lượng so với thử nghiệm t khi các giả định của nó được giữ (và lợi ích hữu ích của việc suy luận trực tiếp về số lượng quan tâm), Wilcoxon-Mann-Whitney được cho là lựa chọn tốt hơn nếu đuôi có thể nặng; với một giả định bổ sung nhỏ, WMW có thể đưa ra kết luận liên quan đến dịch chuyển trung bình. (Có nhiều lý do khác người ta có thể thích nó hơn trong bài kiểm tra hoán vị)
[Nếu bạn biết bạn đang xử lý số đếm, hoặc thời gian chờ hoặc các loại dữ liệu tương tự, tuyến GLM thường hợp lý. Nếu bạn biết một chút về các hình thức phụ thuộc tiềm năng, điều đó cũng dễ dàng được xử lý và tiềm năng cho sự phụ thuộc nên được xem xét.]
Vì vậy, trong khi thử nghiệm t chắc chắn sẽ không còn là quá khứ, bạn gần như luôn luôn có thể làm tốt hoặc gần như khi áp dụng, và có khả năng đạt được một thỏa thuận tuyệt vời khi không tham gia một trong những lựa chọn thay thế . Có thể nói, tôi đồng ý rộng rãi với tình cảm trong bài đăng đó liên quan đến bài kiểm tra t ... phần lớn thời gian bạn có thể nên nghĩ về các giả định của mình trước khi thu thập dữ liệu và nếu bất kỳ ai trong số chúng có thể không thực sự được mong đợi để giữ vững, với bài kiểm tra t thường không có gì để mất chỉ đơn giản là không đưa ra giả định đó vì các phương án thường hoạt động rất tốt.
Nếu một người sẽ gặp rắc rối lớn trong việc thu thập dữ liệu, chắc chắn không có lý do gì để không đầu tư một chút thời gian chân thành xem xét cách tốt nhất để tiếp cận suy luận của bạn.
Lưu ý rằng tôi thường khuyên không nên kiểm tra rõ ràng các giả định - không chỉ trả lời sai câu hỏi, mà còn làm như vậy và sau đó chọn phân tích dựa trên từ chối hoặc không từ chối giả định ảnh hưởng đến các tính chất của cả hai lựa chọn kiểm tra; nếu bạn không thể đưa ra giả định một cách hợp lý (vì bạn biết rõ về quy trình đủ để bạn có thể giả định hoặc vì quy trình không nhạy cảm với nó trong hoàn cảnh của bạn), nói chung bạn nên sử dụng quy trình tốt hơn điều đó không cho rằng nó.
†
# set up some data
x <- c(53.4, 59.0, 40.4, 51.9, 43.8, 43.0, 57.6)
y <- c(49.1, 57.9, 74.8, 46.8, 48.8, 43.7)
xyv <- stack(list(x=x,y=y))$values
nx <- length(x)
# do sample-x mean for all combinations for permutation test
permmean = combn(xyv,nx,mean)
# do the equivalent resampling for a randomization test
randmean <- replicate(100000,mean(sample(xyv,nx)))
# find p-value for permutation test
left = mean(permmean<=mean(x))
# for the other tail, "at least as extreme" being as far above as the sample
# was below
right = mean(permmean>=(mean(xyv)*2-mean(x)))
pvalue_perm = left+right
"Permutation test p-value"; pvalue_perm
# this is easier:
# pvalue = mean(abs(permmean-mean(xyv))>=abs(mean(x)-mean(xyv)))
# but I'd keep left and right above for adapting to other tests
# find p-value for randomization test
left = mean(randmean<=mean(x))
right = mean(randmean>=(mean(xyv)*2-mean(x)))
pvalue_rand = left+right
"Randomization test p-value"; pvalue_rand
(Các giá trị p kết quả lần lượt là 0,538 và 0,539; thử nghiệm t hai mẫu thông thường tương ứng có giá trị p là 0,54 và thử nghiệm t Welch-Satterthwaite có giá trị p là 0,522.)
Lưu ý rằng mã cho các tính toán nằm trong mỗi trường hợp 1 dòng cho các kết hợp cho phép thử hoán vị và giá trị p cũng có thể được thực hiện trong 1 dòng.
Thích ứng điều này với một chức năng thực hiện kiểm tra hoán vị hoặc kiểm tra ngẫu nhiên và đầu ra được tạo ra chứ không phải kiểm tra t sẽ là một vấn đề không quan trọng.
Dưới đây là màn hình hiển thị kết quả:
# Draw a display to show distn & p-vale region for both
opar <- par()
par(mfrow=c(2,1))
hist(permmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)
hist(randmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)
par(opar)