Lựa chọn nào cho kết quả khi Kruskal-Wallis và Mann-Whitney dường như trả lại kết quả trái ngược nhau?


10

Tôi có các nhóm này trong đó các giá trị là phản hồi cho mục Likert 10 điểm:

g1 <- c(10,9,10,9,10,8,9)
g2 <- c(4,9,4,9,8,8,8)
g3 <- c(9,7,9,4,8,9,10)

Do đó, tôi đã sử dụng Kruskal-Wallis để xác định bất kỳ sự khác biệt nào giữa các phản hồi trong các nhóm và kết quả là:

Kruskal-Wallis chi-squared = 5.9554, df = 2, p-value = 0.05091

Tuy nhiên, nếu tôi chạy thử nghiệm Mann-Whitney chính xác giữa các nhóm g1 và g2, tôi nhận được:

Exact Wilcoxon Mann-Whitney Rank Sum Test (using coin::wilcox_test)
Z = 2.3939, p-value = 0.02797

trong đó trả về một sự khác biệt đáng kể ở mức alpha = 0,05.

Tôi nên chọn bài kiểm tra nào, và tại sao?


1
Đối với một số tiếng cười và về chủ đề cắt đen trắng: mchankins.wordpress.com/2013/04/21/still-not-significant-2
Hank

Câu trả lời:


11

Tôi đồng ý với câu trả lời của Michael Chernick, nhưng nghĩ rằng nó có thể được làm cho mạnh mẽ hơn một chút. Bỏ qua ngưỡng 0,05 trong hầu hết các trường hợp. Nó chỉ liên quan đến phương pháp Neyman-Pearson mà phần lớn không liên quan đến việc sử dụng số liệu thống kê suy luận trong nhiều lĩnh vực khoa học.

Cả hai bài kiểm tra chỉ ra rằng dữ liệu của bạn chứa bằng chứng vừa phải chống lại giả thuyết khống. Xem xét bằng chứng đó trong bất kỳ điều gì bạn biết về hệ thống và hậu quả xảy ra sau các quyết định (hoặc sự thiếu quyết đoán) về tình trạng của thế giới thực. Tranh luận một trường hợp lý do và tiến hành theo cách thừa nhận khả năng đánh giá lại sau đó.

Tôi giải thích thêm trong bài viết này: http://www.ncbi.nlm.nih.gov/pubmed/22394284

[Phụ lục được thêm vào tháng 11 năm 2019: Tôi có một tài liệu tham khảo mới giải thích các vấn đề chi tiết hơn https://arxiv.org/abs/1910.02042v1 ]


@MichaelCécick Tôi đã trở nên học hỏi từ bạn rằng có nhiều hơn về số liệu thống kê thay vì chỉ tìm kiếm "p <0,05". Michael Lew: Tôi đã tải xuống bài viết của bạn và chắc chắn sẽ đọc nó. Tôi sẽ làm theo đề xuất của bạn để có lý do chính đáng về dữ liệu của tôi trong tình huống này. Cảm ơn tất cả!
mljrg

3
@MichaelLew Tôi không chia sẻ cái nhìn mờ nhạt của bạn về cách tiếp cận Neyman-Pearson để kiểm tra giả thuyết. Tôi vẫn nghĩ rằng nó là cơ bản để suy luận thường xuyên. Nó chỉ tuân thủ nghiêm ngặt mức 0,05 mà tôi phản đối.
Michael R. Chernick

@MichaelCécick Vì vậy, bạn đang nói rằng người ta nên chọn một điểm dừng có ý nghĩa trước khi thử nghiệm hoặc bạn có thể chọn nó sau khi có kết quả. Thứ nhất là OK, nhưng thứ hai thì không. Cách tiếp cận Neyman-Pearson liên quan đến tỷ lệ lỗi và tỷ lệ lỗi loại I chỉ được bảo vệ khi mức cắt cho mức ý nghĩa được chọn trước. Do đó, nếu bạn khuyên ai đó rằng một chút trên 0,05 là đủ gần bởi vì họ có thể đã chọn mức cắt cao hơn, thì bạn không thực sự sử dụng phương pháp Neyman-Pearson, mà là một cách tiếp cận hỗn hợp không đúng như tôi giải thích trong bài báo được liên kết.
Michael Lew

Mọi người có thể chọn 0,01, 0,05 hoặc 0,10 nếu muốn. Điều này nên được thực hiện mà không bị ảnh hưởng bởi dữ liệu. Nhưng sự lựa chọn 0,01 hay 0,05 không phải là vấn đề tôi đề cập. Đó là niềm tin trắng đen ở mức ý nghĩa vì 0,049 có nghĩa là ý nghĩa thống kê và 0,0501 thì không!
Michael R. Chernick

Các nhà khoa học rất thú vị trong các bằng chứng nhưng họ không treo lên phương pháp được sử dụng để quyết định ý nghĩa.
Michael R. Chernick

13

12

12

Bất kỳ suy nghĩ nào bạn có thể có rằng các kết quả trái ngược nhau sẽ phải xuất phát từ suy nghĩ về một 0,05 bị cắt đứt là ranh giới đen và trắng không có vùng màu xám trong vùng lân cận 0,05. Tôi nghĩ rằng những kết quả này là hợp lý và khá tương thích.


2
Bạn sẽ truyền đạt tốt hơn câu trả lời của mình khi bạn đọc lại nó cho các lỗi (về dấu câu, ngữ pháp, kiểu chữ và chính tả) và sử dụng định dạng hiệu quả. Vui lòng xem lại trang trợ giúp Markdown .
whuber

Quan điểm cổ điển hơn là bạn không tìm thấy ý nghĩa thống kê với thử nghiệm đầu tiên của mình, vì vậy bạn không nên báo cáo (trong một ấn phẩm chuyên nghiệp) bất kỳ thử nghiệm nào nữa như là dấu hiệu có ý nghĩa thống kê giữa các khác biệt nhóm. Để làm như vậy là sử dụng một alpha khác 0,05. Điều này đặc biệt có vấn đề (theo quan điểm cổ điển) vì bạn đã không chọn alpha cao hơn trước khi tiến hành thử nghiệm, vì vậy alpha của bạn không được biết. Tất nhiên, khi bạn cố gắng hiểu dữ liệu của mình, để hướng dẫn chương trình nghiên cứu trong tương lai của chính bạn, bạn có thể lưu ý về sự khác biệt giữa các nhóm 1 và 2.
Joel W.

@JoelW. Bạn đang cố nói với tôi rằng 0,05091 thực sự khác với 0,05? Dù sao, quan điểm của tôi không phải là làm thế nào để báo cáo kết luận mà là để nói rằng hai bài kiểm tra không xung đột. Tôi đồng ý rằng cách bạn phân tích dữ liệu nên được chỉ định trước trước khi xem dữ liệu.
Michael R. Chernick

1
@whuber Xin lỗi vì đã không chỉnh sửa bài viết sớm hơn. Tôi hy vọng nó trông tốt hơn rất nhiều bây giờ.
Michael R. Chernick

@JoelW Quan điểm 'cổ điển hơn' của bạn thực ra là cách tiếp cận suy luận 'hành vi quy nạp' của Neyman. Nó có liên quan đến một tập hợp nhỏ của việc sử dụng số liệu thống kê để hỗ trợ suy luận. Điều đáng tiếc nhất là nó được trình bày thường xuyên như là cổ điển.
Michael Lew

4

Kết quả xét nghiệm Kruskal-Wallis và Mann-Whitney U có thể khác nhau vì

  • Các cấp bậc được sử dụng cho bài kiểm tra Mann-Whitney U không phải là các cấp bậc được sử dụng trong bài kiểm tra Kruskal-Wallis; và
  • Các bài kiểm tra tổng thứ hạng không sử dụng phương sai gộp theo ngụ ý của giả thuyết null Kruskal-Wallis.

Do đó, không nên sử dụng thử nghiệm Mann-whitney U như một thử nghiệm hậu hoc sau thử nghiệm Kruskal-Wallis.

Các thử nghiệm khác như thử nghiệm của Dunn (thường được sử dụng), thử nghiệm Conover-Iman và Dwass-Steel-Citchlow-Fligner được sử dụng làm thử nghiệm sau hoc để kiểm tra kruskal-wallis.


3

Đây là câu trả lời cho @vinesh cũng như xem xét nguyên tắc chung trong câu hỏi ban đầu.

Thực sự có 2 vấn đề ở đây với nhiều so sánh: khi chúng tôi tăng số lượng so sánh được thực hiện, chúng tôi có nhiều thông tin hơn giúp dễ dàng nhận thấy sự khác biệt thực sự, nhưng số lượng so sánh tăng lên cũng giúp dễ dàng thấy sự khác biệt không tồn tại (dương tính giả, nạo vét dữ liệu, tra tấn dữ liệu cho đến khi nó thú nhận).

Hãy nghĩ về một lớp học với 100 sinh viên, mỗi sinh viên được tặng một đồng xu công bằng và được yêu cầu lật đồng xu 10 lần và sử dụng kết quả để kiểm tra giả thuyết khống rằng tỷ lệ người đứng đầu là 50%. Chúng tôi hy vọng giá trị p nằm trong khoảng từ 0 đến 1 và chỉ tình cờ chúng tôi mong đợi sẽ thấy khoảng 5 trong số các sinh viên nhận được giá trị p nhỏ hơn 0,05. Trong thực tế, chúng tôi sẽ rất ngạc nhiên nếu không ai trong số họ có được giá trị p nhỏ hơn 0,05 (ít hơn 1% cơ hội điều đó xảy ra). Nếu chúng ta chỉ nhìn vào một vài giá trị quan trọng và bỏ qua tất cả các giá trị khác thì chúng ta sẽ kết luận sai rằng các đồng tiền bị sai lệch, nhưng nếu chúng ta sử dụng một kỹ thuật có tính đến nhiều so sánh thì chúng ta vẫn có thể đánh giá chính xác rằng các đồng tiền là công bằng (hoặc ít nhất là không từ chối rằng họ hoặc công bằng).

Mặt khác, hãy xem xét một trường hợp tương tự khi chúng tôi có 10 học sinh lăn một cái chết và xác định xem giá trị nằm trong tập {1,2,3} hay tập {4,5,6} mỗi trường sẽ có 50% cơ hội mỗi cuộn nếu chết là công bằng (nhưng có thể khác nhau nếu chết được gian lận). Tất cả 10 sinh viên tính giá trị p (null là 50%) và nhận giá trị trong khoảng 0,06 đến 0,25. Bây giờ trong trường hợp này, không ai trong số họ đạt được mức cắt giảm 5% kỳ diệu, vì vậy nhìn vào bất kỳ kết quả học sinh cá nhân nào sẽ không dẫn đến một tuyên bố không công bằng, nhưng tất cả các giá trị p đều nhỏ hơn 0,5, nếu tất cả các con xúc xắc đều công bằng sau đó các giá trị p phải được phân phối đồng đều và có 50% cơ hội trên 0,5. Cơ hội nhận được 10 giá trị p độc lập tất cả nhỏ hơn 0,5 khi null là đúng so với phép thuật 0,05 và điều này cho thấy rằng súc sắc bị sai lệch,

Bây giờ lật đồng xu và chết lăn là một chút giả tạo, vì vậy một ví dụ khác: tôi có một loại thuốc mới mà tôi muốn thử nghiệm. Ngân sách của tôi cho phép tôi thử nghiệm thuốc trên 1.000 đối tượng (đây sẽ là một so sánh được ghép nối với từng đối tượng là sự kiểm soát của chính họ). Tôi đang xem xét 2 thiết kế nghiên cứu khác nhau, trong lần đầu tiên tôi tuyển dụng 1.000 đối tượng thực hiện nghiên cứu và báo cáo một giá trị p duy nhất. Trong thiết kế thứ hai, tôi tuyển dụng 1.000 đối tượng nhưng chia chúng thành 100 nhóm 10 nhóm, tôi thực hiện nghiên cứu trên từng nhóm trong số 100 nhóm 10 và tính giá trị p cho mỗi nhóm (tổng 100 giá trị p). Hãy suy nghĩ về sự khác biệt tiềm năng giữa 2 phương pháp và cách kết luận có thể khác nhau. Một cách tiếp cận khách quan sẽ yêu cầu cả hai thiết kế nghiên cứu đều dẫn đến cùng một kết luận (với cùng 1.000 bệnh nhân và mọi thứ khác đều giống nhau).

@mljrg, tại sao bạn lại chọn so sánh g1 và g2? Nếu đây là câu hỏi đáng quan tâm trước khi thu thập bất kỳ dữ liệu nào thì giá trị p của MW là hợp lý và có ý nghĩa, tuy nhiên nếu bạn đã thực hiện kiểm tra KW, thì hãy xem thử xem 2 nhóm nào khác nhau nhất và chỉ kiểm tra MW trên các nhóm đó Nhìn khác nhau nhất, sau đó các giả định cho thử nghiệm MW đã bị vi phạm và giá trị p của MW là vô nghĩa và giá trị p là giá trị duy nhất có ý nghĩa tiềm năng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.