Các báo cáo về cái chết của bài kiểm tra t đã được phóng đại rất nhiều?

Đọc qua CV kinh điển mọi thời đại tôi đã bắt gặp một tuyên bố mà tôi muốn làm rõ. Đây là bài đăng và câu hỏi của tôi đề cập đến nhận xét kết thúc: "Tôi phải lưu ý rằng tất cả kiến thức tôi vừa truyền đạt có phần lỗi thời; bây giờ chúng tôi có máy tính, chúng tôi có thể làm tốt hơn bài kiểm tra t. Như Frank lưu ý, bạn có lẽ muốn sử dụng các bài kiểm tra Wilcoxon ở bất cứ nơi nào bạn được dạy để chạy thử nghiệm t. "

Việc không lo lắng về việc liệu có đúng hay không khi cho rằng phân phối của phương tiện mẫu là đủ bình thường để chạy thử nghiệm t rõ ràng là một lợi thế rất lớn. Và tôi thấy rằng các máy tính có thể xếp hạng các danh sách dài về sự khác biệt giữa hai vectơ dữ liệu một cách dễ dàng ... Tôi nhớ là đã làm thủ công nhiều năm trước, nhưng tôi lạc đề ...

Vì vậy, t -test có thực sự là quá khứ không? Còn xét nghiệm hoán vị thì sao? Có phải họ quá quảng cáo theo nghĩa thông thường đòi hỏi phải viết một vài dòng mã?

— Antoni Parellada
nguồn

Điều gì làm cho một bài kiểm tra hoán vị ad hoc ? Fisher coi các bài kiểm tra t phù hợp với mức độ hành vi của họ gần với bài kiểm tra hoán vị (xin lỗi tôi không có trích dẫn chính xác, nếu tôi thấy tôi sẽ đưa ra), cho thấy anh ta đã thấy kiểm tra hoán vị càng cơ bản. Tôi cũng không thấy những gì khó khăn trong các bài kiểm tra hoán vị hai đuôi. Nhưng có lẽ tôi đang đi lạc về phía một câu trả lời.

— Glen_b -Reinstate Monica

Có lẽ một cái gì đó có lợi cho thử nghiệm t phương sai bằng nhau là mối quan hệ của nó với việc ước tính các tham số trong một mô hình khá đơn giản mà bạn có thể muốn giải trí.

— Scortchi - Phục hồi Monica

Tôi sẽ không nói rằng các mẫu thử nghiệm phương sai một mẫu cổ điển (bao gồm cả cặp) và hai mẫu bằng nhau là chính xác, nhưng có rất nhiều lựa chọn thay thế có tính chất tuyệt vời và trong nhiều trường hợp nên sử dụng chúng.

Tôi cũng không nói rằng khả năng thực hiện nhanh chóng các xét nghiệm Wilcoxon-Mann-Whitney trên các mẫu lớn - hoặc thậm chí là các xét nghiệm hoán vị - là gần đây, tôi đã làm cả hai cách đây hơn 30 năm khi còn là một sinh viên và khả năng thực hiện điều đó đã có đã có sẵn trong một thời gian dài tại thời điểm đó.

$^\dagger$

Vì vậy, đây là một số lựa chọn thay thế, và tại sao chúng có thể giúp:

Welch-Satterthwaite - khi bạn không tự tin phương sai sẽ gần bằng nhau (nếu kích thước mẫu là như nhau, giả định phương sai bằng nhau là không quan trọng)
Wilcoxon-Mann-Whitney - Tuyệt vời nếu đuôi là bình thường hoặc nặng hơn bình thường, đặc biệt trong các trường hợp gần với đối xứng. Nếu đuôi có xu hướng gần với bình thường, thử nghiệm hoán vị trên phương tiện sẽ cung cấp nhiều năng lượng hơn một chút.
kiểm tra t mạnh mẽ - có nhiều loại trong số này có sức mạnh tốt ở mức bình thường nhưng cũng hoạt động tốt (và giữ được sức mạnh tốt) dưới các phương án nặng hơn hoặc hơi lệch.
GLM - hữu ích cho số lượng hoặc trường hợp nghiêng phải liên tục (ví dụ gamma) chẳng hạn; được thiết kế để đối phó với các tình huống trong đó phương sai có liên quan đến trung bình.
hiệu ứng ngẫu nhiên hoặc mô hình chuỗi thời gian có thể hữu ích trong trường hợp có các hình thức phụ thuộc cụ thể
Phương pháp tiếp cận Bayes , bootstrapping và rất nhiều kỹ thuật quan trọng khác có thể mang lại lợi thế tương tự cho các ý tưởng trên. Ví dụ, với cách tiếp cận Bayes, hoàn toàn có thể có một mô hình có thể giải thích cho quá trình gây ô nhiễm, xử lý số lượng hoặc dữ liệu sai lệch và xử lý tất cả các hình thức phụ thuộc cụ thể cùng một lúc .

Trong khi có rất nhiều lựa chọn thay thế tiện dụng tồn tại, thử nghiệm t mẫu hai mẫu bằng phương sai tiêu chuẩn cũ thường có thể hoạt động tốt trong các mẫu lớn, kích thước bằng nhau miễn là dân số không quá xa bình thường (chẳng hạn như đuôi rất nặng / skew) và chúng tôi có sự độc lập gần.

Các lựa chọn thay thế rất hữu ích trong một loạt các tình huống mà chúng ta có thể không tự tin với thử nghiệm t đơn giản ... và tuy nhiên thường hoạt động tốt khi các giả định của thử nghiệm t được đáp ứng hoặc gần đạt được.

Welch là một mặc định hợp lý nếu phân phối có xu hướng không đi quá xa so với bình thường (với các mẫu lớn hơn cho phép nhiều thời gian hơn).

Mặc dù thử nghiệm hoán vị là tuyệt vời, không mất năng lượng so với thử nghiệm t khi các giả định của nó được giữ (và lợi ích hữu ích của việc suy luận trực tiếp về số lượng quan tâm), Wilcoxon-Mann-Whitney được cho là lựa chọn tốt hơn nếu đuôi có thể nặng; với một giả định bổ sung nhỏ, WMW có thể đưa ra kết luận liên quan đến dịch chuyển trung bình. (Có nhiều lý do khác người ta có thể thích nó hơn trong bài kiểm tra hoán vị)

[Nếu bạn biết bạn đang xử lý số đếm, hoặc thời gian chờ hoặc các loại dữ liệu tương tự, tuyến GLM thường hợp lý. Nếu bạn biết một chút về các hình thức phụ thuộc tiềm năng, điều đó cũng dễ dàng được xử lý và tiềm năng cho sự phụ thuộc nên được xem xét.]

Vì vậy, trong khi thử nghiệm t chắc chắn sẽ không còn là quá khứ, bạn gần như luôn luôn có thể làm tốt hoặc gần như khi áp dụng, và có khả năng đạt được một thỏa thuận tuyệt vời khi không tham gia một trong những lựa chọn thay thế . Có thể nói, tôi đồng ý rộng rãi với tình cảm trong bài đăng đó liên quan đến bài kiểm tra t ... phần lớn thời gian bạn có thể nên nghĩ về các giả định của mình trước khi thu thập dữ liệu và nếu bất kỳ ai trong số chúng có thể không thực sự được mong đợi để giữ vững, với bài kiểm tra t thường không có gì để mất chỉ đơn giản là không đưa ra giả định đó vì các phương án thường hoạt động rất tốt.

Nếu một người sẽ gặp rắc rối lớn trong việc thu thập dữ liệu, chắc chắn không có lý do gì để không đầu tư một chút thời gian chân thành xem xét cách tốt nhất để tiếp cận suy luận của bạn.

Lưu ý rằng tôi thường khuyên không nên kiểm tra rõ ràng các giả định - không chỉ trả lời sai câu hỏi, mà còn làm như vậy và sau đó chọn phân tích dựa trên từ chối hoặc không từ chối giả định ảnh hưởng đến các tính chất của cả hai lựa chọn kiểm tra; nếu bạn không thể đưa ra giả định một cách hợp lý (vì bạn biết rõ về quy trình đủ để bạn có thể giả định hoặc vì quy trình không nhạy cảm với nó trong hoàn cảnh của bạn), nói chung bạn nên sử dụng quy trình tốt hơn điều đó không cho rằng nó.

$\dagger$

# set up some data
x <- c(53.4, 59.0, 40.4, 51.9, 43.8, 43.0, 57.6)
y <- c(49.1, 57.9, 74.8, 46.8, 48.8, 43.7)
xyv <- stack(list(x=x,y=y))$values
nx  <- length(x)

# do sample-x mean for all combinations for permutation test
permmean = combn(xyv,nx,mean)

# do the equivalent resampling for a randomization test
randmean <- replicate(100000,mean(sample(xyv,nx)))

# find p-value for permutation test
left  = mean(permmean<=mean(x))
# for the other tail, "at least as extreme" being as far above as the sample
# was below
right = mean(permmean>=(mean(xyv)*2-mean(x)))
pvalue_perm = left+right
"Permutation test p-value"; pvalue_perm

# this is easier: 
#      pvalue = mean(abs(permmean-mean(xyv))>=abs(mean(x)-mean(xyv))) 
# but I'd keep left and right above for adapting to other tests

# find p-value for randomization test
left  = mean(randmean<=mean(x))
right = mean(randmean>=(mean(xyv)*2-mean(x)))
pvalue_rand = left+right
"Randomization test p-value"; pvalue_rand

(Các giá trị p kết quả lần lượt là 0,538 và 0,539; thử nghiệm t hai mẫu thông thường tương ứng có giá trị p là 0,54 và thử nghiệm t Welch-Satterthwaite có giá trị p là 0,522.)

Lưu ý rằng mã cho các tính toán nằm trong mỗi trường hợp 1 dòng cho các kết hợp cho phép thử hoán vị và giá trị p cũng có thể được thực hiện trong 1 dòng.

Thích ứng điều này với một chức năng thực hiện kiểm tra hoán vị hoặc kiểm tra ngẫu nhiên và đầu ra được tạo ra chứ không phải kiểm tra t sẽ là một vấn đề không quan trọng.

Dưới đây là màn hình hiển thị kết quả:

# Draw a display to show distn & p-vale region for both 
opar <- par()
par(mfrow=c(2,1))
hist(permmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)
hist(randmean, n=100, xlim=c(45,58))
abline(v=mean(x), col=3)
abline(v=mean(xyv)*2-mean(x), col=3, lty=2)
abline(v=mean(xyv), col=4)

par(opar)

— Glen_b -Reinstate Monica
nguồn

Trên dòng 16 của khối mã đầu tiên có một lỗi đánh máy nhỏ. Tôi tin rằng nó nên đọc: # pvalue = mean (abs (permmean-mean (xyv))> = abs (mean (x) -mean (xyv))). Ngoài ra, tại sao đuôi bên phải được kiểm tra là right = mean (permmean> = 2 * mean (xyv) - mean (x))?

— Antoni Parellada

Câu trả lời tốt (+1), nhưng nói chung tôi không đồng ý với tuyên bố rằng thường có ít mất mát khi không đưa ra các giả định, trừ khi nó chỉ đề cập đến bài kiểm tra t. Có một chút không rõ ràng nếu nó được cho là một tuyên bố chung hay không. Đối với các mô hình phức tạp hơn và các giả định kích thước mẫu hạn chế thường rất quan trọng, ví dụ như ở dạng linh mục thông tin yếu.

— Erik

@Erik Đó không phải là một tuyên bố chung. Hãy để tôi làm rõ

— Glen_b -Reinstate Monica

t

$t$

t

$t$

@Stephan có rất nhiều cân nhắc khác ở đó (và một bộ các lựa chọn thay thế được sử dụng rộng rãi, ít nhất là nếu chúng ta xem xét hồi quy bội) sẽ trả lời trong trường hợp đó sẽ dài và có một số khác biệt đáng kể.

— Glen_b -Reinstate Monica