Giới thiệu: Đã nhận thấy sự chú ý nhận được ngày hôm nay bởi câu hỏi này, " ANOVA có thể có ý nghĩa khi không có bài kiểm tra cặp đôi nào không? ", Tôi nghĩ rằng tôi có thể điều chỉnh lại nó theo cách thú vị có thể xứng đáng với câu trả lời của riêng mình .
Một loạt các kết quả không nhất quán (theo mệnh giá) có thể xảy ra khi ý nghĩa thống kê được hiểu là sự phân đôi đơn giản và được đánh giá dựa trên cơ sở đơn thuần là cao hơn, hoặc . Câu trả lời của @ Glen_b cho câu hỏi trên trình bày một ví dụ hữu ích về trường hợp:
- Một ANOVA -test tạo ra một cho một biến độc lập (IV) với bốn cấp độ, nhưng
- cho tất cả hai mẫu -tests rằng so sánh sự khác biệt trong các biến phụ thuộc cùng (DV) giữa các quan sát tương ứng với mỗi cặp bốn cấp độ của IV.
Một trường hợp tương tự đã phát sinh mặc dù đã hiệu chỉnh Bonferroni để so sánh cặp sau-hoc thông qua câu hỏi này: Các biện pháp lặp lại của Anova rất có ý nghĩa, nhưng tất cả các so sánh nhiều với hiệu chỉnh Bonferroni thì không? Các trường hợp được đề cập trước đây với một thử nghiệm hơi khác trong hồi quy bội cũng tồn tại:
- Tại sao có thể có được thống kê F đáng kể (p <0,001) nhưng kiểm tra hồi quy không đáng kể? :
- Làm thế nào một hồi quy có thể có ý nghĩa nhưng tất cả các yếu tố dự đoán là không đáng kể?
- Trong câu trả lời của @ whuber ,
Tôi cá rằng trong những trường hợp như thế này, một số (nhưng không phải tất cả) so sánh cặp '(hoặc hệ số hồi quy' kiểm tra ý nghĩa ') giá trị phải khá gần với nếu thử nghiệm omnibus tương ứng có thể đạt được . Tôi thấy đây là trường hợp trong ví dụ đầu tiên của @ Glen_b, trong đó , và sự khác biệt lớn nhất theo cặp cho nhỏ nhất . Đây có phải là trường hợp nói chung? Cụ thể hơn :
Câu hỏi: Nếu một ANOVA -test tạo ra một cho hiệu lực sau một polytomous IV về một DV liên tục, bao cao thấp nhất có thể p giá trị được trong số tất cả hai mẫu t -tests rằng so sánh từng cặp các cấp của IV? Ý nghĩa cặp tối thiểu có thể cao bằng p_t = 0,50 không?
Tôi hoan nghênh câu trả lời chỉ giải quyết câu hỏi cụ thể này . Tuy nhiên, để thúc đẩy hơn nữa câu hỏi này, tôi sẽ giải thích và đưa ra một số câu hỏi có khả năng hùng biện. Cảm thấy hoan nghênh để giải quyết những mối quan tâm này, và thậm chí bỏ qua câu hỏi cụ thể nếu bạn muốn, đặc biệt là nếu câu hỏi cụ thể nhận được câu trả lời dứt khoát.
Tầm quan trọng: Hãy xem xét sự khác biệt ít quan trọng giữa và sẽ như thế nào nếu ý nghĩa thống kê được đánh giá liên tục về sức mạnh của bằng chứng chống lại giả thuyết khống (tôi nghĩ cách tiếp cận của Ron Fisher?), thay vì theo các thuật ngữ phân đôi như trên hoặc dưới ngưỡng cho xác suất lỗi có thể chấp nhận được trong việc chọn có từ chối bán buôn null hay không. " hacking " là một vấn đề đã biết, một phần nợ tiếng tăm của nó đối với một lỗ hổng không cần thiết được đưa ra bằng cách giải thíchcác giá trị theo thông lệ chung có ý nghĩa phân đôi thành các tương đương "đủ tốt" và "không đủ tốt". Nếu người ta định loại bỏ cách làm này và tập trung thay vào việc diễn giải các giá trị như là sức mạnh của bằng chứng chống lại null trong một khoảng thời gian liên tục, thì việc kiểm tra omnibus có phần ít quan trọng hơn khi người ta thực sự quan tâm đến nhiều so sánh theo cặp? Tất nhiên, không phải là vô dụng, vì bất kỳ sự cải thiện hiệu quả hợp lý nào về độ chính xác thống kê là điều đáng mong muốn, nhưng ... chẳng hạn, nếu giá trị của so sánh cặp thấp nhất nhất thiết phải nằm trong của ANOVA (hoặc thử nghiệm omnibus khác)giá trị, không phải điều này làm cho thử nghiệm omnibus có phần tầm thường hơn, ít bắt buộc hơn và thậm chí sai lệch hơn (kết hợp với những hiểu lầm từ trước), đặc biệt là nếu người ta không đặc biệt muốn kiểm soát qua nhiều thử nghiệm?
Ngược lại, nếu dữ liệu có thể tồn tại sao cho một omnibus , nhưng tất cả các cặp , điều này có nên thúc đẩy omnibus và kiểm tra độ tương phản trong suốt quá trình thực hành và sư phạm không? Dường như với tôi, vấn đề này cũng cần thông báo giá trị tương đối của việc đánh giá ý nghĩa thống kê theo sự phân đôi so với tính liên tục, trong đó hệ thống diễn giải phân đôi nên nhạy cảm hơn với các điều chỉnh nhỏ khi sự khác biệt là "có ý nghĩa biên", trong khi cả hai hệ thống đều không là an toàn từ việc không thực hiện kiểm tra omnibus hoặc điều chỉnh cho nhiều so sánh nếu sự khác biệt / điều chỉnh này có thể rất lớn (ví dụ, trên lý thuyết.
Các phức tạp tùy chọn khác để xem xét hoặc bỏ qua, bất cứ điều gì làm cho việc trả lời dễ dàng và đáng giá hơn :
- Thay vào đó, s cho s có thể cao đến mức nào , đối với , thay vào đó (ví dụ: )
- Nhạy cảm với số lượng mức độ trong IV đa hình
- Độ nhạy đối với sự không đồng đều về ý nghĩa của sự khác biệt theo cặp (trong khi tất cả )
- Câu trả lời của người chỉ ra rằng bao gồm những khác biệt nhỏ có thể che giấu những khác biệt lớn.
- Sự khác nhau giữa các hiệu chỉnh của các bài kiểm tra omnibus khác nhau cho nhiều so sánh
- Xem thêm: Sửa lỗi cho nhiều so sánh trong một đối tượng / các biện pháp lặp lại ANOVA; bảo thủ quá mức?
- Với nhiều IV, có vẻ như đa cộng đồng có thể làm trầm trọng thêm vấn đề này .
- Các trường hợp bị hạn chế trong đó dữ liệu đáp ứng tất cả các giả định của các xét nghiệm tham số cổ điển một cách tối ưu
- Hạn chế này có thể là quan trọng để ngăn chặn câu hỏi này được một chút tranh luận.