Mann-Whitney U-test: khoảng tin cậy cho kích thước hiệu ứng


13

Theo Fritz, Morris và Richler (2011; xem bên dưới), có thể được tính là kích thước hiệu ứng cho phép thử Mann-Whitney U bằng cách sử dụng công thức Điều này thuận tiện cho tôi, như tôi báo cáo cũng vào những dịp khác Tôi muốn báo cáo khoảng tin cậy cho ngoài thước đo kích thước hiệu ứng.r

r= =zN
rr

Đây là câu hỏi của tôi :

  • Tôi có thể tính các khoảng tin cậy cho r như đối với r Pearson không, mặc dù nó được sử dụng như một thước đo kích thước hiệu ứng cho phép thử không đối xứng?
  • Những khoảng tin cậy nào phải được báo cáo cho thử nghiệm một đầu so với hai đuôi?

Chỉnh sửa liên quan đến câu hỏi thứ hai: "Khoảng tin cậy nào phải được báo cáo cho thử nghiệm một đầu so với thử nghiệm hai đuôi?"

Tôi tìm thấy một số thông tin mà IMHO có thể trả lời câu hỏi này. "Trong khi giới hạn tin cậy hai mặt tạo thành một khoảng tin cậy, thì các đối tác một phía của chúng được gọi là giới hạn tin cậy thấp hơn hoặc cao hơn." ( http://en.wikipedia.org/wiki/Confidence_interval ). Từ thông tin này, tôi kết luận rằng đây không phải là vấn đề chính cho dù thử nghiệm quan trọng (ví dụ: -test) là một hoặc hai đuôi, nhưng thông tin nào người ta quan tâm đến CI về kích thước hiệu ứng. Kết luận của tôi (vui lòng sửa lại cho tôi nếu bạn không đồng ý):t

  • CI hai mặt quan tâm trên cận dưới (do đó, nó có thể là một CI hai mặt đòi hỏi 0 mặc dù thử nghiệm một đuôi có ý nghĩa là p <0,05, đặc biệt là trong trường hợp giá trị là gần 0,05.)
  • một chiều "CI" chỉ quan tâm trên hoặc thấp hơn giới hạn (do lập luận lý thuyết); tuy nhiên, đây không nhất thiết là câu hỏi quan tâm chính sau khi thử nghiệm một giả thuyết được định hướng. CI hai mặt là hoàn toàn phù hợp nếu trọng tâm là phạm vi có thể có của kích thước hiệu ứng. Đúng?

Xem bên dưới để biết đoạn văn bản từ Fritz, Morris, & Richler (2011) về ước tính kích thước hiệu ứng cho thử nghiệm Mann-Whitney từ bài viết tôi đề cập ở trên.

"Hầu hết các ước tính kích thước hiệu ứng mà chúng tôi đã mô tả ở đây đều cho rằng dữ liệu có phân phối bình thường. Tuy nhiên, một số dữ liệu không đáp ứng các yêu cầu của các thử nghiệm tham số, ví dụ, dữ liệu trên thang đo thứ tự nhưng không theo thang đo. thường chuyển sang các thử nghiệm thống kê không theo tỷ lệ, chẳng hạn như các thử nghiệm MannTHER Whitney và Wilcoxon. Tầm quan trọng của các thử nghiệm này thường được đánh giá thông qua việc phân phối các thống kê thử nghiệm cho phân phối khi kích thước mẫu không quá nhỏ và thống kê các gói, chẳng hạn như SPSS, chạy các thử nghiệm này báo cáo giá trị thích hợp bên cạnh các giá trị cho hoặc ;zzBạnTzcũng có thể được tính bằng tay (ví dụ: Siegel & Castellan, 1988). Các giá trị có thể được sử dụng để tính toán kích thước thực tế, chẳng hạn như bởi Cohen (1988) đề xuất; Hướng dẫn của Cohen cho r là hiệu ứng lớn là 0,5, hiệu ứng trung bình là .3 và hiệu ứng nhỏ là .1 (Coolican, 2009, trang 395). Thật dễ dàng để tính , hoặc từ các giá trị này vì và zrrr2η2z

r= =zN
r2orη2= =z2N
Các ước tính kích thước hiệu ứng này vẫn độc lập với kích thước mẫu mặc dù có sự hiện diện của N trong các công thức. Điều này là do z nhạy cảm với kích thước mẫu; chia cho hàm N sẽ loại bỏ ảnh hưởng của cỡ mẫu khỏi ước tính kích thước hiệu ứng tổng hợp. "(trang 12)

Câu trả lời:


9

Một lựa chọn về kích thước hiệu ứng cho bài kiểm tra Mann - Whitney U là kích thước hiệu ứng ngôn ngữ phổ biến. Đối với Mann - Whitney U, đây là tỷ lệ của các cặp mẫu hỗ trợ cho một giả thuyết đã nêu.

Lựa chọn thứ hai là mối tương quan thứ hạng; bởi vì mối tương quan xếp hạng nằm trong khoảng từ -1 đến +1, nó có các thuộc tính tương tự như Pearson r. Ngoài ra, bằng công thức khác biệt đơn giản, mối tương quan xếp hạng là sự khác biệt giữa kích thước hiệu ứng ngôn ngữ phổ biến và bổ sung của nó, một thực tế thúc đẩy giải thích. Ví dụ: nếu có 100 cặp mẫu và nếu 70 cặp mẫu ủng hộ giả thuyết, thì kích thước hiệu ứng ngôn ngữ phổ biến là 70% và tương quan xếp hạng là r = .70 = .30 = .40. Một cuộc thảo luận rõ ràng về kích thước hiệu ứng ngôn ngữ phổ biến và bốn công thức để tính toán mối tương quan xếp hạng được đưa ra bởi Kerby trong tạp chí Dạy học đổi mới: Kerby (2014) Dạy học đổi mới

Nhân tiện, mặc dù bài báo không đề cập đến nó, tôi khá chắc chắn rằng Somalia d và mối tương quan xếp hạng cho Mann-Whitney là tương đương.


1
Bạn có nghĩa là "Ví dụ, nếu có 100 cặp có thể "? Thử nghiệm Mann-Whitney U dành cho dữ liệu chưa ghép nối, do đó, cụm từ không rõ ràng - bạn có thể muốn làm rõ cho độc giả biết các cặp có thể là gì.
gung - Phục hồi Monica

1
Cảm ơn các bình luận và cơ hội để làm rõ. Tôi đã đề cập đến các cặp mẫu . Nếu có 10 quan sát trong mẫu thử nghiệm và nếu có 10 quan sát trong mẫu đối chứng thì có 10 * 10 = 100 cặp mẫu . Theo Robert Grissom, kích thước hiệu ứng của mẫu là một ước lượng không thiên vị của kích thước hiệu ứng dân số. Do đó, nếu tương quan xếp hạng là r = 0,40 cho mẫu, thì đây là công cụ ước tính không thiên vị về kích thước hiệu ứng dân số.
DSK

Tôi nghi ngờ đó là những gì bạn muốn nói, @DSK. Tôi nghĩ rằng lời giải thích sẽ giúp mọi người. Bạn có thể muốn chỉnh sửa nó vào câu trả lời của bạn. Chào mừng đến với CV.
gung - Phục hồi Monica

8

Liên kết của bạn dẫn tôi đến một cơ hội để mua bài viết.

cHmiscrcorr.censcDxyDxy= =2×(c-12)


Cảm ơn bạn đã mang điều này đến thông báo của tôi (liên kết). Bây giờ tôi đã chèn đoạn văn vào bài kiểm tra Mann-Whitney trong câu hỏi của tôi.
màu xám

Cảm ơn bạn rất nhiều vì câu trả lời của bạn. Bạn có thể có một liên kết trong tay về cách diễn giải chỉ số c và Som 'không? Tôi đặc biệt quan tâm đến việc liệu cái sau có thể được giải thích có thể so sánh với r hay không. Tôi có hai mẫu và trong mẫu thứ hai (N lớn hơn và phân phối bình thường) tôi báo cáo r. Tôi nghĩ rằng nó sẽ làm cho việc so sánh kết quả dễ dàng hơn nếu các biện pháp được sử dụng là tương tự nhau - tất nhiên là có thể. Đó là lý do tại sao tôi quan tâm đến công thức được đề cập bởi Fritz et al. (2011). Vì vậy, CI cho r của họ không thể được tính như đối với Pearson r tôi giả sử? Rất cám ơn lần nữa!
màu xám

zDxyYDc

Rất cám ơn phản hồi của bạn. Tôi đã tìm kiếm thêm một số thông tin về cách diễn giải của Somer, nhưng cho đến nay tôi vẫn chưa thành công lắm. Liệu Somer có thể được hiểu tương tự như hệ số tương quan của Pearson, ví dụ như bình phương nó có mang lại một hệ số xác định không? Tôi rất vui khi tìm thấy một thước đo kích thước hiệu ứng có thể được hiểu tương tự như r, nếu có.
màu xám

Tôi tìm thấy thêm một số thông tin về công thức r = Z / (N): Rosenthal (1991) viết rằng "chúng ta có thể ước tính một cách hữu ích một kích thước hiệu ứng r từ cấp độ ap miễn là chúng ta biết kích thước của nghiên cứu (N). Chúng tôi chuyển đổi p thu được thành tương đương độ lệch chuẩn thông thường của nó bằng cách sử dụng bảng các giá trị Z. "
xám
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.