Bao nhiêu nhỏ lon giá trị từ ANOVA của -test được so với những người từ nhiều -tests trên các dữ liệu giống nhau không?


13

Giới thiệu: Đã nhận thấy sự chú ý nhận được ngày hôm nay bởi câu hỏi này, " ANOVA có thể có ý nghĩa khi không có bài kiểm tra cặp đôi nào không? ", Tôi nghĩ rằng tôi có thể điều chỉnh lại nó theo cách thú vị có thể xứng đáng với câu trả lời của riêng mình .

Một loạt các kết quả không nhất quán (theo mệnh giá) có thể xảy ra khi ý nghĩa thống kê được hiểu là sự phân đôi đơn giản và được đánh giá dựa trên cơ sở đơn thuần là cao hơn, hoặc . Câu trả lời của @ Glen_b cho câu hỏi trên trình bày một ví dụ hữu ích về trường hợp:pα

  • Một ANOVA -test tạo ra một cho một biến độc lập (IV) với bốn cấp độ, nhưngFpF<.05
  • pt>.08 cho tất cả hai mẫu -tests rằng so sánh sự khác biệt trong các biến phụ thuộc cùng (DV) giữa các quan sát tương ứng với mỗi cặp bốn cấp độ của IV.t

Một trường hợp tương tự đã phát sinh mặc dù đã hiệu chỉnh Bonferroni để so sánh cặp sau-hoc thông qua câu hỏi này: Các biện pháp lặp lại của Anova rất có ý nghĩa, nhưng tất cả các so sánh nhiều với hiệu chỉnh Bonferroni thì không? Các trường hợp được đề cập trước đây với một thử nghiệm hơi khác trong hồi quy bội cũng tồn tại:

Tôi cá rằng trong những trường hợp như thế này, một số (nhưng không phải tất cả) so sánh cặp '(hoặc hệ số hồi quy' kiểm tra ý nghĩa ') giá trị phải khá gần với nếu thử nghiệm omnibus tương ứng có thể đạt được . Tôi thấy đây là trường hợp trong ví dụ đầu tiên của @ Glen_b, trong đó , và sự khác biệt lớn nhất theo cặp cho nhỏ nhất . Đây có phải là trường hợp nói chung? Cụ thể hơn :pαp<αF(3,20)=3.19pF=.046pt=.054


Câu hỏi: Nếu một ANOVA -test tạo ra một cho hiệu lực sau một polytomous IV về một DV liên tục, bao cao thấp nhất có thể p giá trị được trong số tất cả hai mẫu t -tests rằng so sánh từng cặp các cấp của IV? Ý nghĩa cặp tối thiểu có thể cao bằng p_t = 0,50 không?FpF=.05ptpt=.50


Tôi hoan nghênh câu trả lời chỉ giải quyết câu hỏi cụ thể này . Tuy nhiên, để thúc đẩy hơn nữa câu hỏi này, tôi sẽ giải thích và đưa ra một số câu hỏi có khả năng hùng biện. Cảm thấy hoan nghênh để giải quyết những mối quan tâm này, và thậm chí bỏ qua câu hỏi cụ thể nếu bạn muốn, đặc biệt là nếu câu hỏi cụ thể nhận được câu trả lời dứt khoát.

Tầm quan trọng: Hãy xem xét sự khác biệt ít quan trọng giữa và sẽ như thế nào nếu ý nghĩa thống kê được đánh giá liên tục về sức mạnh của bằng chứng chống lại giả thuyết khống (tôi nghĩ cách tiếp cận của Ron Fisher?), thay vì theo các thuật ngữ phân đôi như trên hoặc dưới ngưỡng cho xác suất lỗi có thể chấp nhận được trong việc chọn có từ chối bán buôn null hay không. " hacking " là một vấn đề đã biết, một phần nợ tiếng tăm của nó đối với một lỗ hổng không cần thiết được đưa ra bằng cách giải thíchpF=.04pt=.06α=.05ppcác giá trị theo thông lệ chung có ý nghĩa phân đôi thành các tương đương "đủ tốt" và "không đủ tốt". Nếu người ta định loại bỏ cách làm này và tập trung thay vào việc diễn giải các giá trị như là sức mạnh của bằng chứng chống lại null trong một khoảng thời gian liên tục, thì việc kiểm tra omnibus có phần ít quan trọng hơn khi người ta thực sự quan tâm đến nhiều so sánh theo cặp? Tất nhiên, không phải là vô dụng, vì bất kỳ sự cải thiện hiệu quả hợp lý nào về độ chính xác thống kê là điều đáng mong muốn, nhưng ... chẳng hạn, nếu giá trị của so sánh cặp thấp nhất nhất thiết phải nằm trong của ANOVA (hoặc thử nghiệm omnibus khác)pp.10pgiá trị, không phải điều này làm cho thử nghiệm omnibus có phần tầm thường hơn, ít bắt buộc hơn và thậm chí sai lệch hơn (kết hợp với những hiểu lầm từ trước), đặc biệt là nếu người ta không đặc biệt muốn kiểm soát qua nhiều thử nghiệm?α

Ngược lại, nếu dữ liệu có thể tồn tại sao cho một omnibus , nhưng tất cả các cặp , điều này có nên thúc đẩy omnibus và kiểm tra độ tương phản trong suốt quá trình thực hành và sư phạm không? Dường như với tôi, vấn đề này cũng cần thông báo giá trị tương đối của việc đánh giá ý nghĩa thống kê theo sự phân đôi so với tính liên tục, trong đó hệ thống diễn giải phân đôi nên nhạy cảm hơn với các điều chỉnh nhỏ khi sự khác biệt là "có ý nghĩa biên", trong khi cả hai hệ thống đều không là an toàn từ việc không thực hiện kiểm tra omnibus hoặc điều chỉnh cho nhiều so sánh nếu sự khác biệt / điều chỉnh này có thể rất lớn (ví dụ, trên lý thuyết.p=.05p>.50ptpF>.40)

Các phức tạp tùy chọn khác để xem xét hoặc bỏ qua, bất cứ điều gì làm cho việc trả lời dễ dàng và đáng giá hơn :

  • Thay vào đó, s cho s có thể cao đến mức nào , đối với , thay vào đó (ví dụ: )ptFp<.05p=.01,.001,
  • Nhạy cảm với số lượng mức độ trong IV đa hình
  • Độ nhạy đối với sự không đồng đều về ý nghĩa của sự khác biệt theo cặp (trong khi tất cả )pt>pF
  • Sự khác nhau giữa các hiệu chỉnh của các bài kiểm tra omnibus khác nhau cho nhiều so sánh
  • Các trường hợp bị hạn chế trong đó dữ liệu đáp ứng tất cả các giả định của các xét nghiệm tham số cổ điển một cách tối ưu
    • Hạn chế này có thể là quan trọng để ngăn chặn câu hỏi này được một chút tranh luận.

1
Bạn có thể muốn làm rõ liệu các thử nghiệm t cặp có nên sử dụng ước tính phương sai lỗi tương tự như thử nghiệm F omnibus (trong ví dụ của Glen không).
Scortchi - Phục hồi Monica

1
Tôi có nghĩa là một thử nghiệm t thông thường cho sự khác biệt về phương tiện sử dụng , nhưng với tính là căn bậc hai của lỗi ANOVAR có nghĩa là bình phương. Đây là bài kiểm tra cặp đôi sau đại học thông thường & không điều chỉnh cho nhiều so sánh, không giống như HSD của Tukey. Nó không kết hợp thông tin từ tất cả các nhóm, nhưng độc lập với sự khác biệt trong phương tiện nhóm. σt=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi - Tái lập Monica

1
Tôi thấy (sắp xếp)! Tôi chủ yếu quan tâm đến việc làm theo ví dụ của @ Glen_b và không sử dụng , nhưng sử dụng công thức đầu tiên bạn đã đề cập để tránh kết hợp thông tin từ tất cả các nhóm. Điều đó không có nghĩa là tôi có một sở thích mạnh mẽ ở đây ... nhưng một phần trong ý định ban đầu của tôi là trình bày một biến thể của chủ đề chung trong những câu hỏi này: "Điều gì có hại thực sự trong việc bỏ qua thông tin ngoài hai nhóm cụ thể được đề cập cho bất kỳ nhóm nào kiểm tra hai mẫu trong số nhiều? " Tôi đoán chủ đề đó cũng đáng để thực hiện trong quyết định này. MSE
Nick Stauner

1
@Scortchi Tôi đã bao gồm một ví dụ ở câu hỏi khác bao gồm nhận xét đầu tiên của bạn (nghĩa là các bài kiểm tra được thực hiện bằng phương sai lỗi phổ biến và df), mặc dù tất cả các bài kiểm tra (F và nhiều so sánh) được thực hiện ở mức ý nghĩa khá thấp (0,0025, không 0,05). Khi so sánh với các thử nghiệm t hai mẫu thông thường riêng lẻ mà Nick S. yêu cầu ở đây, nó cho thấy có thể có sự khác biệt đáng kể về ý nghĩa (trong trường hợp này, cho tất cả các thử nghiệm t thông thường, chưa ). Tôi tin với nhiều nhóm, có thể tiến xa hơn nữa. p F < 0,002pt>.05pF<0.002
Glen_b -Reinstate Monica

1
Tôi đã phác thảo một câu trả lời cho phần đầu tiên của câu hỏi này vài phút trước trong một bình luận tại stats.stackexchange.com/questions/83030/ .
whuber

Câu trả lời:


8

Giả sử bằng [nhưng xem chú thích 2 bên dưới] cho mỗi điều trị theo bố cục một chiều và SD gộp từ tất cả các nhóm được sử dụng trong các thử nghiệm (như được thực hiện trong các so sánh sau hoc thông thường), tối đa có thể giá trị cho kiểm tra là (ở đây, biểu thị cdf). Do đó, không nào có thể cao tới . Điều thú vị (và khá kỳ lạ), các ràng buộc nắm giữ không chỉ cho , nhưng đối với bất kỳ mức ý nghĩa chúng tôi yêu cầu cho .t p t 2 Φ ( - ntptΦN(0,1)pt0,5.1573pF=.05F2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05F

Cách biện minh như sau: Đối với một phạm vi phương tiện mẫu đã cho, , thống kê lớn nhất có thể đạt được khi một nửa ở một cực trị và nửa còn lại ở cực kia. Điều này thể hiện trường hợp trông có ý nghĩa nhất với hai phương tiện khác nhau nhiều nhất là .F ˉ y i F 2 amaxi,j|y¯iy¯j|=2aFy¯iF2a

Vì vậy, không mất tính tổng quát, giả sử rằng sao cho trong trường hợp ranh giới này. Và một lần nữa, không mất tính tổng quát, giả sử rằng , vì chúng ta luôn có thể bán lại dữ liệu cho giá trị này. Bây giờ hãy xem xét nghĩa là (trong đó là đơn giản [nhưng xem ghi chú 1 bên dưới]), chúng ta có . Đặt sao cho , chúng tôi thu được . Khi tất cả là (và vẫn là ), mỗi giá trị khác ˉ y i=±aMSE=1kkF=n ˉ y 2/(k-1)y¯.=0y¯i=±aMSE=1kk pF=αF=Fα=Fα,k-1,k(n-1)một=F=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1) ˉyi±aMSE=1tt=2aa=(k1)Fαkny¯i±aMSE=1tDo đó, thống kê là . Đây là giá trị tối đa nhỏ nhất có thể có khi . tF=Fαt=2a12/n=2(k1)FαktF=Fα

Vì vậy, bạn chỉ có thể thử các trường hợp khác nhau của và , tính và liên quan của nó . Nhưng lưu ý rằng với cho , đang giảm trong [nhưng xem ghi chú 3 bên dưới]; hơn nữa, như , ; vì vậy . Lưu ý rằng có nghĩa là và SD . Vì vậy, , bất kển t p t k F α n n ( k - 1 ) F α , k - 1 , k ( n - 1 )χ 2 α , k - 1 t t m i n = kntptkFαnn(k1)Fα,k1,k(n1)χα,k12 χ2/k= k - 1ttmin=2χα,k12/kk-1χ2/k=k1kχ2/(k1) k-1k1k limktmin=k1k2k1 αlimktmin=2α và kết quả tôi đã nêu trong đoạn đầu tiên ở trên có được từ sự bình thường tiệm cận.

Tuy nhiên, phải mất một thời gian dài để đạt đến giới hạn đó. Dưới đây là kết quả (được tính bằng cách sử dụng R) cho các giá trị khác nhau của , sử dụng :α = 0,05kα=.05

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

Một vài kết thúc lỏng lẻo ...

  1. Khi k là số lẻ: Thống kê tối đa vẫn xảy ra khi đều là ; tuy nhiên, chúng ta sẽ có thêm một ở một đầu của phạm vi so với đầu kia, làm cho trung bình và bạn có thể chỉ ra rằng yếu tố trong thống kê được thay thế bằng . Điều này cũng thay thế mẫu số của , làm cho nó lớn hơn một chút và do đó giảm .ˉ y i ± a ± a / k k F k - 1Fy¯i±a±a/kkF tptk1ktpt
  2. Unequal s:n F ˉ y i = ± a F N = n i t n i p t tối đa vẫn đạt được với , với các dấu hiệu được sắp xếp để cân bằng kích thước mẫu gần như bằng nhau nhất có thể. Khi đó, thống kê cho cùng một cỡ mẫu sẽ giống hoặc nhỏ hơn so với dữ liệu cân bằng. Hơn nữa, thống kê tối đa sẽ lớn hơn bởi vì nó sẽ là số liệu có lớn nhất . Vì vậy, chúng ta không thể có được giá trị lớn hơn bằng cách xem xét các trường hợp không cân bằng.Fy¯i=±aFN=nitnipt
  3. Một sự điều chỉnh nhẹ: tôi đã quá tập trung vào việc cố gắng tìm ra tối thiểu mà tôi bỏ qua một thực tế mà chúng ta đang cố gắng để phát huy tối đa , và nó là ít rõ ràng rằng một lớn hơn có ít df sẽ không được ít hơn đáng kể so với một nhỏ với nhiều df hơn. Tuy nhiên, tôi đã xác minh rằng đây là trường hợp bằng cách tính các giá trị cho cho đến khi df đủ cao để tạo ra sự khác biệt nhỏ. Đối với trường hợp Tôi không thấy bất kỳ trường hợp nào mà giá trị không tăng với . Lưu ý rằng vì vậy df có thể là sẽ tăng nhanh khitpttn=2,3,4,α=.05,k3ptndf=k(n1)k,2k,3k,klà lớn Vì vậy, tôi vẫn đang ở trên mặt đất an toàn với yêu cầu ở trên. Tôi cũng đã kiểm tra và trường hợp duy nhất tôi quan sát thấy vượt quá ngưỡng là .α=.25.1573k=3,n=2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.