ANOVA có thể có ý nghĩa khi không có bài kiểm tra t cặp nào không?


29

Có thể cho ANOVA một chiều (với nhóm hoặc "cấp độ") ANOVA báo cáo sự khác biệt đáng kể khi không có thử nghiệm t cặp N ( N - 1 ) / 2 nào không?N>2N(N-1)/2

Trong câu trả lời này @whuber đã viết:

Người ta biết rằng thử nghiệm ANOVA F toàn cầu có thể phát hiện sự khác biệt của phương tiện ngay cả trong trường hợp không thử nghiệm riêng lẻ [không điều chỉnh cặp đôi] của bất kỳ cặp phương tiện nào sẽ mang lại kết quả quan trọng.

Vì vậy, rõ ràng là có thể, nhưng tôi không hiểu làm thế nào. Khi nào nó xảy ra và trực giác đằng sau một trường hợp như vậy sẽ là gì? Có lẽ ai đó có thể cung cấp một ví dụ đồ chơi đơn giản về tình huống như vậy?

Một số nhận xét thêm:

  1. Điều ngược lại rõ ràng là có thể: ANOVA tổng thể có thể không có ý nghĩa trong khi một số thử nghiệm t cặp đôi báo cáo sai sự khác biệt đáng kể (nghĩa là những điều đó sẽ là dương tính giả).

  2. Câu hỏi của tôi là về tiêu chuẩn, không điều chỉnh cho nhiều bài kiểm tra so sánh. Nếu các thử nghiệm điều chỉnh được sử dụng (ví dụ như quy trình HSD của Tukey), thì có thể không có thử nghiệm nào trong số chúng có ý nghĩa mặc dù ANOVA tổng thể là. Điều này được đề cập ở đây trong một số câu hỏi, ví dụ: Làm thế nào tôi có thể có được một ANOVA tổng thể đáng kể nhưng không có sự khác biệt đáng kể về cặp đôi với quy trình của Tukey? tương tác ANOVA đáng kể nhưng so sánh cặp không đáng kể .

  3. Cập nhật. Câu hỏi của tôi ban đầu đề cập đến các bài kiểm tra cặp đôi hai mẫu thông thường . Tuy nhiên, như @whuber đã chỉ ra trong các nhận xét, trong ngữ cảnh ANOVA, các bài kiểm tra t thường được hiểu là sự tương phản sau hoc sử dụng ước tính ANOVA của phương sai trong nhóm, được gộp trong tất cả các nhóm (không phải là điều xảy ra trong hai -mẫu kiểm tra mẫu). Vì vậy, thực sự có hai phiên bản khác nhau của câu hỏi của tôi và câu trả lời cho cả hai đều hóa ra là tích cực. Xem bên dưới.


3
Câu hỏi của bạn được đề cập trong nhiều chủ đề: hãy thử tìm kiếm trang web của chúng tôi về hồi quy đáng kể . (ANOVA là một ứng dụng của hồi quy bình phương tối thiểu.) Ví dụ: stats.stackexchange.com/questions/14500/ , cung cấp một ví dụ rõ ràng và một số trực giác. Vui lòng nghiên cứu những điều này và chỉnh sửa câu hỏi của bạn, nếu có thể, để phân biệt nó với các chủ đề trước đó.
whuber

Cảm ơn bạn, tôi đã không nhìn thấy điều đó trước đây. Tuy nhiên, tôi đã rất khó khăn trong việc dịch những lời giải thích này về hồi quy bội sang ngôn ngữ so sánh ANOVA. Tất nhiên đây là vấn đề của riêng tôi, nhưng tôi đoán rằng tôi không đơn độc, vì vậy có lẽ câu trả lời cho câu hỏi của tôi vẫn hữu ích cho cộng đồng. Đây là sự nhầm lẫn của tôi: ai đó đã đưa ra một ví dụ về việc giảm trọng lượng cho kích cỡ giày trái / phải (hai IV tương quan mạnh) => F Signif, t không. Rất tốt. Bây giờ trong hồi quy ANOVA với 3 nhóm có 2 IV giả ; họ là hình nộm => luôn luôn hoàn hảo chống lại ... Và vậy thì sao?
amip nói rằng Phục hồi lại

Tôi sợ rằng tôi không làm theo nhận xét cuối cùng đó. Đầu tiên, vấn đề không nhất thiết liên quan đến tương quan mạnh mẽ trong ma trận thiết kế. Thứ hai, các hình nộm không phải là "chống hoàn hảo": nếu có, phần mềm sẽ phải bỏ một trong số chúng. Có lẽ bạn có thể đề cập đến các vấn đề tinh vi hơn trong các mô hình ANOVA phức tạp hơn .
whuber

@amoeba: biến giả của bạn có tương quan nghịch.
Michael M

3
Tôi không ngoại lệ với "nhận xét thêm" của bạn. 1. Chỉ vì bạn có các so sánh cặp có ý nghĩa cao và F không đặc hiệu không ngụ ý rằng những kết quả quan trọng đó là dương tính giả. Để biết chắc chắn rằng một cái gì đó là dương tính giả, bạn phải biết rằng không có sự khác biệt trong phương tiện thực tế, mu. Thống kê F không thiêng liêng. Trong thực tế, nó thậm chí không bắt buộc. Nó hữu ích nhất cho việc lựa chọn mô hình, nhưng ngoài ra nó hầu như không cung cấp thông tin cụ thể về những gì đang diễn ra trong dữ liệu của bạn.
rvl

Câu trả lời:


18

Lưu ý: Có một cái gì đó sai với ví dụ ban đầu của tôi. Tôi ngu ngốc bị bắt bởi tái chế tranh luận im lặng của R. Ví dụ mới của tôi khá giống với ví dụ cũ của tôi. Hy vọng mọi thứ là ngay bây giờ.

Dưới đây là một ví dụ tôi đã thực hiện có ANOVA có ý nghĩa ở mức 5% nhưng không có so sánh nào trong 6 so sánh theo cặp là đáng kể, ngay cả ở mức 5% .

Đây là dữ liệu:

g1:  10.71871  10.42931   9.46897   9.87644
g2:  10.64672   9.71863  10.04724  10.32505  10.22259  10.18082  10.76919  10.65447 
g3:  10.90556  10.94722  10.78947  10.96914  10.37724  10.81035  10.79333   9.94447 
g4:  10.81105  10.58746  10.96241  10.59571

nhập mô tả hình ảnh ở đây

Đây là ANOVA:

             Df Sum Sq Mean Sq F value Pr(>F)  
as.factor(g)  3  1.341  0.4469   3.191 0.0458 *
Residuals    20  2.800  0.1400        

Đây là hai giá trị p-test mẫu thử nghiệm (giả định phương sai bằng nhau):

        g2     g3     g4
 g1   0.4680 0.0543 0.0809 
 g2          0.0550 0.0543 
 g3                 0.8108

Với một chút khó khăn hơn với các phương tiện nhóm hoặc các điểm riêng lẻ, sự khác biệt về ý nghĩa có thể trở nên nổi bật hơn (trong đó tôi có thể làm cho giá trị p đầu tiên nhỏ hơn và thấp nhất trong sáu giá trị p cho thử nghiệm t cao hơn ).

-

Chỉnh sửa: Đây là một ví dụ bổ sung ban đầu được tạo ra với tiếng ồn về một xu hướng, cho thấy bạn có thể làm tốt hơn bao nhiêu nếu bạn di chuyển các điểm xung quanh một chút:

g1:  7.27374 10.31746 10.54047  9.76779
g2: 10.33672 11.33857 10.53057 11.13335 10.42108  9.97780 10.45676 10.16201
g3: 10.13160 10.79660  9.64026 10.74844 10.51241 11.08612 10.58339 10.86740
g4: 10.88055 13.47504 11.87896 10.11403

F có giá trị p dưới 3% và không ai trong số t có giá trị p dưới 8%. (Đối với ví dụ 3 nhóm - nhưng với giá trị p lớn hơn một chút trên F - bỏ qua nhóm thứ hai)

Và đây là một ví dụ thực sự đơn giản, nếu nhân tạo hơn, với 3 nhóm:

g1: 1.0  2.1
g2: 2.15 2.3 3.0 3.7 3.85
g3: 3.9  5.0

(Trong trường hợp này, phương sai lớn nhất nằm ở nhóm giữa - nhưng do cỡ mẫu lớn hơn ở đó, nên sai số chuẩn của trung bình nhóm vẫn nhỏ hơn)


Nhiều bài kiểm tra so sánh

whuber đề nghị tôi xem xét trường hợp so sánh nhiều. Nó chứng tỏ là khá thú vị.

Trường hợp cho nhiều so sánh (tất cả được tiến hành ở mức ý nghĩa ban đầu - tức là không điều chỉnh alpha cho nhiều so sánh) có phần khó đạt được hơn, vì chơi xung quanh với các phương sai lớn hơn và nhỏ hơn hoặc ít hơn df trong các nhóm khác nhau không giúp ích theo cùng một cách như họ làm với các bài kiểm tra t hai mẫu thông thường.

Tuy nhiên, chúng tôi vẫn có các công cụ thao túng số lượng nhóm và mức ý nghĩa; nếu chúng ta chọn nhiều nhóm hơn và mức ý nghĩa nhỏ hơn, nó lại trở nên tương đối đơn giản để xác định các trường hợp. Đây là một:

ntôi= =2α= =0,0025

> summary(aov(values~ind,gs2))
            Df Sum Sq Mean Sq F value  Pr(>F)   
ind          7      9   1.286   10.29 0.00191 
Residuals    8      1   0.125                   

Tuy nhiên, giá trị p nhỏ nhất trên các so sánh cặp không đáng kể ở mức đó:

> with(gs2,pairwise.t.test(values,ind,p.adjust.method="none"))

        Pairwise comparisons using t tests with pooled SD 

data:  values and ind 

   g1     g2     g3     g4     g5     g6     g7    
g2 1.0000 -      -      -      -      -      -     
g3 1.0000 1.0000 -      -      -      -      -     
g4 1.0000 1.0000 1.0000 -      -      -      -     
g5 0.0028 0.0028 0.0028 0.0028 -      -      -     
g6 0.0028 0.0028 0.0028 0.0028 1.0000 -      -     
g7 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 -     
g8 0.0028 0.0028 0.0028 0.0028 1.0000 1.0000 1.0000

P value adjustment method: none 

2
Phép thử t hai mẫu không giống như phép thử cặp trong hồi quy. Sự khác biệt nằm trong các ước tính của phương sai còn lại. Do đó, các ví dụ của bạn không thực sự là ví dụ về nghịch lý mạnh hơn, đó là trong một và cùng phân tích hồi quy , thử nghiệm F có thể có ý nghĩa trong khi không có so sánh cặp nào của nó là đáng kể. Tôi tin rằng nghịch lý này không nhất thiết phát sinh từ tính không đồng nhất: nó có thể xuất hiện ngay cả khi tất cả các phương sai nhóm đều bằng nhau.
whuber

4
Thú vị hơn nữa vẫn có thể là giải quyết khi có thể từ chối F-test để từ chối null nhưng không có thử nghiệm t cặp nào từ chối nó ở cùng mức ý nghĩa (sử dụng ước tính phương sai lỗi tương tự như thử nghiệm F). Ví dụ: đối với 3 nhóm có cỡ mẫu bằng nhau, liên kết của vùng loại bỏ 5% cho các phép thử t cặp có chứa vùng loại bỏ 5% cho phép thử ANOVAR F ngay cả khi cỡ mẫu rất lớn.
Scortchi - Phục hồi Monica

4
0,005F
Đức hồng y

4
Amoeba, sự nhầm lẫn phát sinh từ thực tế là "các bài kiểm tra t cặp" có thể có nghĩa là hai điều. Trong bối cảnh ANOVA, nó thường được hiểu là tương phản hậu hoc sử dụng các ước tính ANOVA. Như những người khác đã chỉ ra, điều này không giống như tiến hành thử nghiệm t thông thường trên các cặp nhóm, bởi vì phiên bản ANOVA dựa trên ước tính của phương sai trong nhóm xuất phát từ tất cả các nhóm.
ai

2
Tôi nghĩ rằng bạn đã thực hiện một bản tóm tắt tốt. Tôi gọi nghịch lý là "mạnh hơn" theo nghĩa là khi tất cả các thử nghiệm được tiến hành trong khuôn khổ phân tích ANOVA duy nhất, người ta sẽ (ngây thơ) mong đợi chúng sẽ nhất quán trong nội bộ. (Khi bạn tiến hành hai bộ thử nghiệm không liên quan đến nhau, sẽ không có gì đáng ngạc nhiên khi chúng cho kết quả mâu thuẫn: điều này xảy ra thường xuyên.) Chúng tôi phải chấp nhận rằng nó phù hợp về mặt logic và thống kê để kết luận nhóm đó có nghĩa là khác nhau đáng kể trong khi không tìm thấy sự khác biệt giữa bất kỳ cặp nhóm cụ thể.
whuber

4

Tóm tắt: Tôi tin rằng điều này là có thể, nhưng rất, rất khó xảy ra. Sự khác biệt sẽ là nhỏ, và nếu nó xảy ra, đó là do một giả định đã bị vi phạm (chẳng hạn như tính đồng nhất của phương sai).

Đây là một số mã tìm kiếm một khả năng như vậy. Lưu ý rằng nó tăng hạt giống lên 1 mỗi lần nó chạy, để hạt giống được lưu trữ (và tìm kiếm thông qua các hạt giống có hệ thống).

stopNow <- FALSE
counter <- 0
while(stopNow == FALSE) {
  counter <- counter + 1
  print(counter)
  set.seed(counter)
  x <- rep(c(0:5), 100)
  y <- rnorm(600) + x * 0.01
  df  <-as.data.frame( cbind(x, y))
  df$x <- as.factor(df$x)
  fit <- (lm(y ~ x, data=df))
  anovaP <- anova(fit)$"Pr(>F)"[[1]]
       minTtestP <- 1
      for(loop1 in c(0:5)){
        for(loop2 in c(0:5)) {
          newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y)$p.value
      minTtestP <- min(minTtestP, newTtestP )    
      }
   }

  if(minTtestP > 0.05 & anovaP < 0.05) stopNow <- TRUE 
  cat("\nminTtestP = ", minTtestP )
  cat("\nanovaP = ", anovaP )
  cat("\nCounter = ", counter, "\n\n" )
}

Tìm kiếm một R2 đáng kể và không có thử nghiệm t không đáng kể Tôi đã không tìm thấy gì với số hạt giống là 18.000. Tìm kiếm giá trị p thấp hơn từ R2 so với từ các bài kiểm tra t, tôi nhận được kết quả tại seed = 323, nhưng sự khác biệt là rất, rất nhỏ. Có thể điều chỉnh các tham số (tăng số lượng nhóm?) Có thể giúp ích. Lý do giá trị p R2 có thể nhỏ hơn là khi tính toán sai số chuẩn cho các tham số trong hồi quy, tất cả các nhóm được kết hợp, do đó, sai số chuẩn của chênh lệch có khả năng nhỏ hơn trong thử nghiệm t.

Tôi tự hỏi nếu vi phạm sự không đồng nhất có thể giúp đỡ (như nó là). Nó làm. Nếu tôi sử dụng

y <- (rnorm(600) + x * 0.01) * x * 5

Để tạo y, sau đó tôi tìm thấy một kết quả phù hợp tại seed = 1889, trong đó giá trị p tối thiểu từ các phép thử t là 0,061 và giá trị p liên quan đến bình phương R là 0,046.

Nếu tôi thay đổi kích thước nhóm (làm tăng hiệu ứng vi phạm tính không đồng nhất), bằng cách thay thế mẫu x bằng:

x <- sample(c(0:5), 100, replace=TRUE)

Tôi nhận được một kết quả quan trọng tại seed = 531, với giá trị p thử nghiệm t tối thiểu là 0,063 và giá trị p cho R2 là 0,046.

Nếu tôi dừng sửa lỗi cho tính không đồng nhất trong thử nghiệm t, bằng cách sử dụng:

newTtestP <- t.test(df[x==loop1,]$y, df[x==loop2,]$y, var.equal = TRUE)$p.value

Kết luận của tôi là điều này rất khó xảy ra, và sự khác biệt có thể rất nhỏ, trừ khi bạn đã vi phạm giả định homoscedasticity trong hồi quy. Hãy thử chạy phân tích của bạn với một mạnh mẽ / bánh sandwich / bất cứ điều gì bạn muốn gọi nó là sửa chữa.


Bạn dường như có một câu chưa hoàn thành bắt đầu bằng "Nếu tôi dừng sửa lỗi cho tính không đồng nhất trong bài kiểm tra t". Ngoài ra, cảm ơn rất nhiều! Xin vui lòng xem cập nhật của tôi cho câu hỏi. Cũng lưu ý @ bình luận đầu tiên của ai lên đây; nếu tôi hiểu chính xác, anh ta khăng khăng rằng một tình huống như vậy có thể dễ dàng xảy ra (?) (và gọi đó là "nổi tiếng"). Có thể có một số hiểu lầm ở đây, nhưng nó là gì?
amip nói rằng Phục hồi lại

Tôi nghĩ rằng @whuber đang nói về các tham số không quan trọng trong mô hình, không phải các thử nghiệm t không đáng kể.
Jeremy Miles

Không, anh ấy không. Nếu nó được biết đến, tôi không biết điều đó và tôi đã cố gắng đưa ra một ví dụ, và không thể.
Jeremy Miles

1
Sau đó, tôi mừng vì @Glen_b đã tạo ra một ví dụ đơn giản. Trực giác là thử nghiệm tổng thể đánh giá xem có bằng chứng nào cho thấy sự lây lan trong nhóm có nghĩa là không thể giải thích một cách hợp lý chỉ bằng phương sai dư. Các xét nghiệm cặp đôi, chỉ liên quan đến hai phương tiện tại một thời điểm, phải thận trọng hơn đáng kể trong việc đánh giá cùng một bằng chứng. Do đó, ngay cả việc so sánh hai phương tiện nhóm cực đoan có thể không phát hiện ra một sự khác biệt đáng kể khi phân phối tổng thể của tất cả các phương tiện là đáng kể. Điều này đôi khi xảy ra trong thực tế, đặc biệt là với số lượng lớn các nhóm.
whuber

3
BTW, lý do để gọi điều này "nổi tiếng" bắt nguồn từ hồi ức của tôi về việc được cảnh báo về nó trong hướng dẫn sử dụng phần mềm Systat c. 1989. Đó là một hướng dẫn rất hướng dẫn (hầu hết được viết bởi Leland Wilkinson , nhà phát triển) và có lẽ vẫn còn. Hướng dẫn là trực tuyến, nhưng bạn phải đăng ký trên trang Systat để có thể tải xuống.
whuber

2

Điều đó hoàn toàn có thể:

  • Một hoặc nhiều thử nghiệm t cặp đôi là có ý nghĩa nhưng thử nghiệm F tổng thể thì không
  • Thử nghiệm F tổng thể là quan trọng nhưng không có thử nghiệm t cặp nào là

Các xét nghiệm F tổng thể kiểm tra tất cả tương phản đồng thời . Như vậy, nó phải ít nhạy hơn (công suất thống kê ít hơn) với độ tương phản riêng lẻ (ví dụ: thử nghiệm cặp đôi). Hai bài kiểm tra có liên quan chặt chẽ với nhau nhưng chúng không báo cáo chính xác cùng một điều.

Như bạn có thể thấy, khuyến nghị trong sách giáo khoa về việc không thực hiện so sánh theo kế hoạch trừ khi bài kiểm tra F tổng thể có ý nghĩa không phải lúc nào cũng đúng. Trên thực tế, khuyến nghị có thể ngăn chúng tôi tìm ra sự khác biệt đáng kể vì thử nghiệm F tổng thể có ít sức mạnh hơn so với so sánh theo kế hoạch để thử nghiệm sự khác biệt cụ thể.


Tôi không chắc chắn tôi làm theo logic câu trả lời của bạn. Bạn có nói rằng từ chối H0 bằng phép thử F ngụ ý rằng có ít nhất một độ tương phản khác không, nhưng độ tương phản này có thể không tương ứng với bất kỳ so sánh cặp nào? Nếu vậy, điều này có nghĩa là nếu thử nghiệm F từ chối H0, thì ít nhất một trong các thử nghiệm cặp đôi trên tất cả các độ tương phản có thể cũng sẽ dẫn đến sự từ chối?
amip nói rằng phục hồi Monica

@amoeba Tôi đã chỉnh sửa câu trả lời của mình.
SmallChess
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.