Khi nào nên sử dụng bài kiểm tra tổng xếp hạng Wilcoxon thay vì bài kiểm tra t không ghép đôi?


26

Đây là một câu hỏi tiếp theo cho những gì Frank Harrell đã viết ở đây :

Theo kinh nghiệm của tôi, cỡ mẫu yêu cầu để phân phối t chính xác thường lớn hơn cỡ mẫu trong tay. Bài kiểm tra xếp hạng có chữ ký của Wilcoxon cực kỳ hiệu quả như bạn đã nói, và nó rất mạnh mẽ, vì vậy tôi hầu như luôn thích nó hơn bài kiểm tra t

Nếu tôi hiểu chính xác - khi so sánh vị trí của hai mẫu chưa từng có, chúng tôi muốn sử dụng phép thử tổng thứ hạng Wilcoxon so với phép thử t không ghép cặp, nếu kích thước mẫu của chúng tôi nhỏ.

Có một tình huống lý thuyết nào mà chúng tôi muốn thử nghiệm tổng xếp hạng Wilcoxon hơn thử nghiệm t không ghép đôi, thậm chí kích thước mẫu của hai nhóm của chúng tôi là tương đối lớn?

Động lực của tôi cho câu hỏi này xuất phát từ việc quan sát rằng đối với một bài kiểm tra mẫu đơn, sử dụng nó cho một mẫu không quá nhỏ của phân phối bị lệch sẽ dẫn đến lỗi loại I sai:

n1 <- 100
mean1 <- 50
R <- 100000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
sum(P_y1<.05) / R # for n1=n2=100 -> 0.0572  # "wrong" type I error

1
Đối với tôi, 0,0572 dường như đủ gần 0,05.
đánh dấu999

Xin chào Mark - khi được tiến hành dưới 100000 lần lặp lại giả thuyết khống, chúng tôi không mong đợi có được mức chênh lệch này từ 0,05. Nói chung, chúng tôi sẽ mong đợi một sự khác biệt cộng với trừ đi hai lần như sqrt (0,05 * 0,95 / 100000) từ 0,05
Tal Galili

1
Tôi đồng ý rằng nó không chính xác. Tôi chỉ có nghĩa là nó có vẻ đủ gần cho các mục đích thực tế.
đánh dấu999

1
Một câu hỏi liên quan: Làm thế nào để lựa chọn giữa thử nghiệm t hoặc thử nghiệm không tham số, ví dụ Wilcoxon trong các mẫu nhỏ , xem xét cả hai thử nghiệm ghép đôi và không ghép cặp, cũng như các lựa chọn thay thế cho Wilcoxon như Brunner-Munzel. Ngoài ra còn có một câu trả lời xuất sắc của Frank Harrell giải thích lý do tại sao anh ta cảm thấy hợp lý trong cách tiếp cận của mình chi tiết hơn trích đoạn trên (ví dụ như tầm quan trọng của sự bất biến của các cấp bậc dưới sự biến đổi đơn điệu).
Cá bạc

H0:μ=50

Câu trả lời:


23

Có, có. Ví dụ, bất kỳ lấy mẫu từ các bản phân phối có phương sai vô hạn sẽ phá hỏng phép thử t, nhưng không phải là Wilcoxon. Đề cập đến các Phương pháp thống kê không đối xứng (Hollander và Wolfe), tôi thấy rằng hiệu quả tương đối tiệm cận (IS) của Wilcoxon so với thử nghiệm t là 1.0 đối với phân phối Thống nhất, 1.097 (nghĩa là Wilcoxon tốt hơn) cho Logistic, 1.5 cho gấp đôi số mũ (Laplace) và 3.0 cho số mũ.

Hodges và Lehmann đã chỉ ra rằng mức tối thiểu của Wilcoxon so với bất kỳ thử nghiệm nào khác là 0,864, vì vậy bạn không bao giờ có thể mất hơn 14% hiệu quả khi sử dụng nó so với bất kỳ thứ gì khác. (Tất nhiên, đây là một kết quả không có triệu chứng.) Do đó, việc sử dụng Wilcoxon của Frank Harrell như một mặc định có lẽ nên được hầu hết mọi người, kể cả bản thân tôi chấp nhận.

Chỉnh sửa: Trả lời câu hỏi tiếp theo trong các nhận xét, đối với những người thích khoảng tin cậy, công cụ ước tính Hodges-Lehmann là công cụ ước tính "tương ứng" với thử nghiệm Wilcoxon và khoảng tin cậy có thể được xây dựng xung quanh đó.


1
Có cách nào dễ dàng để có được khoảng tin cậy nếu thử nghiệm Wilcoxon được sử dụng không? Nó dường như khuyến khích mọi người nhấn mạnh quá nhiều vào giá trị p, thậm chí nhiều hơn so với phương pháp tham số.
đánh dấu999

Đúng, công cụ ước tính Hodges-Lehmann là công cụ ước tính có liên quan và tôi đã chỉnh sửa nội dung phản hồi để độc giả trong tương lai không phải xem qua các bình luận.
jbowman

Cảm ơn người hướng dẫn. Tôi không quen thuộc với công cụ ước tính Hodges-Lehmann, nhưng sẽ xem những gì tôi có thể tìm hiểu về nó.
đánh dấu999

3
biostat.mc.vanderbilt.edu/WilcoxonSoftware chỉ ra cách sử dụng R để có được ước tính Hodges-Lehmann và khoảng tin cậy của nó.
Frank Harrell

1
(+1) từ một người theo chủ nghĩa truyền thống chống đối mạnh mẽ. Tuy nhiên, một thách thức đối với các bài kiểm tra xếp hạng là giả thuyết này rất mơ hồ. Nó thường không phải là giả thuyết giống như thử nghiệm t. Kiểm tra t kiểm tra một sự khác biệt trung bình luôn luôn, Wilcoxon kiểm tra một sự khác biệt thứ hạng trung bình có trọng số. Chắc chắn nếu sự khác biệt trung bình thứ hạng có ý nghĩa thống kê, chúng tôi biết các phân phối phải khác nhau, ngay cả khi phương tiện của chúng là như nhau. Không thử nghiệm nào được cung cấp để phát hiện sự khác biệt phân phối trong mọi trường hợp. Tôi chỉ nói nhiều vì tôi thích khả năng diễn giải. (1/2)
AdamO 16/03/18

24

Hãy để tôi đưa bạn trở lại cuộc thảo luận của chúng tôi trong các bình luận cho câu hỏi này của bạn. Thử nghiệm tổng xếp hạng Wilcoxon tương đương với thử nghiệm Mann-Whitney U (và phần mở rộng trực tiếp của nó cho hơn hai mẫu được gọi là thử nghiệm Kruskal-Wallis). Bạn có thể thấy trong Wikipedia cũng như trong văn bản này rằng Mann-Whitney (hoặc Kruskal-Wallis) thường so sánh không có nghĩa là hoặc trung bình. Nó so sánh mức độ phổ biến chung của các giá trị: mẫu nào là "lớn hơn một cách ngẫu nhiên". Bài kiểm tra không phân phối. T-test so sánh có nghĩa là. Nó giả định phân phối bình thường. Vì vậy, các bài kiểm tra tham gia vào các giả thuyết khác nhau. Trong hầu hết các trường hợp, chúng tôi không có kế hoạch so sánh cụ thể các phương tiện, thay vào đó, chúng tôi muốn biết mẫu nào lớn hơn theo giá trị và điều đó khiến Mann-Whitney trở thành thử nghiệm mặc định cho chúng tôi. Mặt khác, khi cả hai phân phối đối xứng nhau, nhiệm vụ kiểm tra xem một mẫu có "lớn hơn" so với các mẫu khác suy biến thành nhiệm vụ so sánh hai phương tiện hay không, và sau đó, nếu các phân phối bình thường với phương sai kiểm tra bằng nhau quyền lực hơn.


+1 để buộc câu trả lời của bạn trở lại ý nghĩa của các giả thuyết đang được kiểm tra.
Josh Hemann

Bởi "mẫu nào" lớn hơn một cách ngẫu nhiên "", ý bạn là "mẫu nào trong số các mẫu thường có giá trị lớn hơn so với mẫu kia"? Nếu không, bạn có ý nghĩa gì? Bạn có thể giải thích thêm về điều này một chút không?
Erdogan CEVHER

1
@Erdogan, vâng, chúng tôi có thể nói như bạn đã nói. Từ ngữ nghiêm ngặt là thế này: trong một cặp đối tượng được chọn ngẫu nhiên, một đối tượng từ mỗi mẫu, đối tượng từ mẫu "trội hơn ngẫu nhiên" sẽ cao hơn (theo giá trị) so với đối tượng từ mẫu khác có xác suất> 0,5.
ttnphns
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.