Chúng ta có cần một bài kiểm tra toàn cầu trước khi kiểm tra bài hoc không?


54

Tôi thường nghe rằng các bài kiểm tra bài hoc sau ANOVA chỉ có thể được sử dụng nếu bản thân ANOVA có ý nghĩa.

  • Tuy nhiên, các bài kiểm tra sau hoc điều chỉnh giá trị để giữ tỷ lệ lỗi loại I toàn cầu ở mức 5%, phải không?p
  • Vậy tại sao chúng ta cần kiểm tra toàn cầu trước?
  • Nếu chúng ta không cần một bài kiểm tra toàn cầu thì thuật ngữ "post hoc" có đúng không?

  • Hoặc có nhiều loại bài kiểm tra bài hoc, một số giả định kết quả kiểm tra toàn cầu quan trọng và một số khác không có giả định đó?

Câu trả lời:


58

Vì nhiều bài kiểm tra so sánh thường được gọi là 'bài kiểm tra bài', bạn sẽ nghĩ rằng chúng tuân theo logic ANOVA một chiều. Trên thực tế, đây không phải là như vậy.

" Một thực tế phổ biến đáng tiếc là chỉ theo đuổi nhiều so sánh khi giả thuyết thân đồng nhất bị bác bỏ. " ( Hsu, trang 177 )

Kết quả của các bài kiểm tra sau có hợp lệ không nếu giá trị P tổng thể của ANOVA lớn hơn 0,05?

Đáng ngạc nhiên, câu trả lời là có. Với một ngoại lệ, các bài kiểm tra sau là hợp lệ ngay cả khi ANOVA tổng thể không tìm thấy sự khác biệt đáng kể giữa các phương tiện.

Ngoại lệ là thử nghiệm so sánh nhiều lần đầu tiên được phát minh, thử nghiệm khác biệt được bảo vệ (LSD) của Fisher Least. Bước đầu tiên của thử nghiệm LSD được bảo vệ là kiểm tra xem ANOVA tổng thể có bác bỏ giả thuyết khống về các phương tiện giống hệt nhau hay không. Nếu không, không nên so sánh riêng lẻ. Nhưng thử nghiệm LSD được bảo vệ này đã lỗi thời và không còn được khuyến nghị.

Có thể nhận được kết quả 'đáng kể' từ thử nghiệm so sánh nhiều lần ngay cả khi ANOVA tổng thể không đáng kể?

Vâng, nó là có thể. Ngoại lệ là thử nghiệm của Scheffe. Nó được đan xen với thử nghiệm F tổng thể. Nếu ANOVA tổng thể có giá trị P lớn hơn 0,05, thì thử nghiệm của Scheffe sẽ không tìm thấy bất kỳ thử nghiệm quan trọng nào. Trong trường hợp này, thực hiện các bài kiểm tra sau một ANOVA không đặc biệt tổng thể là một sự lãng phí thời gian nhưng sẽ không dẫn đến kết luận không hợp lệ. Nhưng các thử nghiệm so sánh khác có thể tìm thấy sự khác biệt đáng kể (đôi khi) ngay cả khi ANOVA tổng thể cho thấy không có sự khác biệt đáng kể giữa các nhóm.

Làm thế nào tôi có thể hiểu được mâu thuẫn rõ ràng giữa một ANOVA nói rằng, thực tế, tất cả các nhóm có nghĩa là giống hệt nhau và một bài kiểm tra tìm thấy sự khác biệt?

ANOVA một chiều tổng thể kiểm tra giả thuyết không có giá trị rằng tất cả các nhóm điều trị có giá trị trung bình giống hệt nhau, do đó, bất kỳ sự khác biệt nào bạn tình cờ quan sát được là do lấy mẫu ngẫu nhiên. Mỗi bài kiểm tra bài kiểm tra giả thuyết null rằng hai nhóm cụ thể có phương tiện giống hệt nhau.

Các bài kiểm tra bài tập trung hơn, vì vậy có sức mạnh để tìm ra sự khác biệt giữa các nhóm ngay cả khi ANOVA tổng thể báo cáo rằng sự khác biệt giữa các phương tiện không có ý nghĩa thống kê.

Là kết quả của ANOVA tổng thể hữu ích ở tất cả?

ANOVA kiểm tra giả thuyết null tổng thể rằng tất cả dữ liệu đến từ các nhóm có phương tiện giống hệt nhau. Nếu đó là câu hỏi thử nghiệm của bạn - liệu dữ liệu có cung cấp bằng chứng thuyết phục rằng các phương tiện không hoàn toàn giống nhau không - thì ANOVA chính xác là những gì bạn muốn. Thường xuyên hơn, các câu hỏi thử nghiệm của bạn tập trung hơn và được trả lời bằng nhiều bài kiểm tra so sánh (bài kiểm tra bài). Trong những trường hợp này, bạn có thể bỏ qua các kết quả ANOVA tổng thể một cách an toàn và chuyển ngay đến kết quả kiểm tra bài.

Lưu ý rằng tất cả các phép tính so sánh đều sử dụng kết quả bình phương trung bình từ bảng ANOVA. Vì vậy, ngay cả khi bạn không quan tâm đến giá trị của F hoặc giá trị P, các bài kiểm tra bài vẫn yêu cầu bảng ANOVA được tính toán.


1
Đây là một câu trả lời tuyệt vời Harvey - cảm ơn vì đã viết nó!
pmgjones

3
(+1) Hai đoạn cuối cung cấp một bối cảnh tốt để hiểu và đánh giá cao toàn bộ câu trả lời.
whuber

4
Câu trả lời tuyệt vời và tôi sẽ thêm một số trích dẫn từ Maxwell và Delaney (2004): "... những phương pháp này [ví dụ: Bonferroni, Tukey, Dunnet, v.v.] nên được xem như là sự thay thế cho bài kiểm tra omnibus vì chúng kiểm soát alphaEW Yêu cầu một mức độ mong muốn một mình. Yêu cầu một thử nghiệm omnibus đáng kể trước khi tiến hành bất kỳ phân tích nào, như đôi khi được thực hiện, chỉ phục vụ để hạ thấp alphaEW dưới mức mong muốn (Bernhardson, 1975) và do đó làm giảm sức mạnh một cách không thích hợp "(tr. 236) .
dfife

Tôi thích "vì vậy có sức mạnh để tìm sự khác biệt giữa các nhóm ..."
SmallChess

Mặc dù không có trong câu hỏi, tôi nghĩ rằng tôi nên đề cập - vì có thể không rõ ràng - rằng tình huống ngược lại cũng có thể xảy ra trong một số tình huống (rằng một bài kiểm tra omnibus từ chối nhưng không so sánh theo cặp nào)
Glen_b

25

(1) Các bài kiểm tra sau hoc có thể hoặc không thể đạt được tỷ lệ lỗi Loại I toàn cầu danh nghĩa, tùy thuộc vào (a) liệu nhà phân tích có điều chỉnh số lượng bài kiểm tra và (b) ở mức độ nào các bài kiểm tra sau hoc không phụ thuộc vào mức độ nào khác. Trước tiên, áp dụng một bài kiểm tra toàn cầu là sự bảo vệ khá chắc chắn trước nguy cơ (thậm chí vô tình) phát hiện ra kết quả "đáng kể" giả từ việc rình mò dữ liệu sau hoc .

(2) Có một vấn đề về quyền lực. Người ta biết rằng thử nghiệm ANOVA F toàn cầu có thể phát hiện sự khác biệt của phương tiện ngay cả trong trường hợp không có thử nghiệm t riêng lẻ của bất kỳ cặp phương tiện nào sẽ mang lại kết quả quan trọng. Nói cách khác, trong một số trường hợp, dữ liệu có thể tiết lộ rằng phương tiện thực sự có khả năng khác nhau nhưng nó không thể xác định đủ độ tin cậy các cặp phương tiện khác nhau.


Giới thiệu lại kiểm tra t? Tôi nghĩ rằng điều này sẽ không bao giờ có thể, tôi đã sai?
amip nói rằng Phục hồi Monica

@amoeba Đúng vậy; Tôi đang đề cập đến các bài kiểm tra cặp đôi chưa được điều chỉnh. Cảm ơn bạn đã làm rõ điểm này.
whuber

Cảm ơn bạn, @whuber. Tôi đã cố gắng tìm một cuộc thảo luận về điểm này ở đây trên CrossValidated, nhưng không có kết quả. Vì vậy, tôi đã đăng câu hỏi của riêng mình về một tình huống như vậy có thể xảy ra như thế nào: stats.stackexchange.com/questions/83030/ . Tôi thực sự sẽ rất biết ơn nếu bạn có thể xây dựng ở đó!
amip nói phục hồi Monica

3
@amoba và @whuber: Có thể bạn biết điều này, nhưng dù sao tôi cũng muốn làm rõ nó. Lưu ý rằng thử nghiệm ANOVA có thể có ý nghĩa ngay cả khi không có thử nghiệm HSD nào của Tukey. Ví dụ R đơn giản với bộ dữ liệu cân bằng với ba nhóm:set.seed(249); group = rep(1:3, each=2); y = group + rnorm(6); mod = aov(y~factor(group)); summary(mod); TukeyHSD(mod); plot(y~group)
Karl Ove Hufthammer

1
Chà, ít nhất bạn có thể phỏng đoán rằng có sự khác biệt giữa hai phương tiện với sự khác biệt lớn nhất giữa chúng không, vì giả thuyết khống về ANOVA là ít nhất một cặp phương tiện khác nhau?
Speldosa 27/2/2015
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.