Nếu nhiều so sánh được lên kế hoạch, bạn vẫn cần sửa cho nhiều so sánh?


20

Tôi đang xem xét một bài báo đã thực hiện> 15 bài kiểm tra Chi2 2x2 riêng biệt. Tôi đã đề nghị rằng họ cần sửa cho nhiều so sánh, nhưng họ đã trả lời rằng tất cả các so sánh đã được lên kế hoạch, và do đó điều này là không cần thiết.

Tôi cảm thấy điều này không phải là chính xác nhưng không thể tìm thấy bất kỳ tài nguyên nào nêu rõ liệu đây có phải là trường hợp không.

Có ai có thể giúp với điều này?


Cập nhật:

Cảm ơn tất cả các câu trả lời rất hữu ích của bạn. Đáp lại yêu cầu của @ gung về một số thông tin về nghiên cứu và phân tích, họ đang so sánh dữ liệu đếm cho hai loại người tham gia (sinh viên, không phải sinh viên) trong hai điều kiện, trong ba khoảng thời gian. Nhiều bài kiểm tra Chi2 2x2 đang so sánh từng khoảng thời gian, trong từng điều kiện, cho từng loại người tham gia (nếu điều đó có ý nghĩa; ví dụ: học sinh, điều kiện 1, khoảng thời gian 1 so với khoảng thời gian 2), vì vậy tất cả các phân tích đều kiểm tra cùng một giả thuyết .


2
Nhiều người thực hiện nhiều so sánh có kế hoạch thực hiện tất cả chúng một ưu tiên . Họ làm điều đó bởi vì họ muốn kiểm soát tỷ lệ lỗi loại I chung. Trong một số tình huống có thể hợp lý khi không sửa cho nhiều so sánh, nhưng đó không chỉ là vấn đề lập kế hoạch để thực hiện tất cả chúng ngay từ đầu.
Glen_b -Reinstate Monica

3
Bạn có thể nói thêm một chút về nghiên cứu, dữ liệu của họ và phân tích không? Làm số lượng> 15 cho tất cả các so sánh có thể, hoặc chỉ một% nhỏ? Họ có bao nhiêu dữ liệu? Làm thế nào hợp lý là các giả thuyết đều là a-prori? Có phải tất cả đều có ý nghĩa? Các bài kiểm tra chi bình phương có độc lập với nhau không? Cũng xem xét một số câu hỏi được nêu trong câu trả lời của @ peuhp.
gung - Phục hồi Monica

4
Bởi vì "họ" có thể quan tâm đến việc tìm kiếm kết quả quan trọng, phản ứng của họ là tự phục vụ. Do đó, gánh nặng thuộc về họ để chứng minh tại sao cách tiếp cận của họ là hợp pháp, thay vì bạn cho thấy nó là bất hợp pháp. Bất kỳ nỗ lực nào cho thấy rằng nhiều sự so sánh có thể bị bỏ qua sẽ bị bỏ qua ngay khi nó xem xét tỷ lệ dương tính giả trên giấy, và do đó "chúng" phải (không rõ ràng) tránh mọi sự xem xét về vấn đề đó hoặc nếu không thì đưa ra một lập luận tốt về lý do tại sao nó không phải là mối quan tâm cho đối tượng dự định của họ.
whuber

1
Tôi rất muốn được phản hồi với một liên kết đến dải XKCD này (mà, như bạn có thể lưu ý, liên quan đến một loạt các thử nghiệm được lên kế hoạch đầy đủ ...).
Ilmari Karonen

Câu trả lời:


21

Đây là IMHO một vấn đề phức tạp và tôi muốn đưa ra ba nhận xét về tình huống này.

Đầu tiên và nói chung, tôi sẽ tập trung hơn vào việc bạn có phải đối mặt với một nghiên cứu xác nhận với một loạt các giả thuyết được định hình rõ ràng được xác định trong bối cảnh tranh luận hoặc một nghiên cứu giải thích trong đó nhiều chỉ số có khả năng được quan sát hơn là chúng có được lên kế hoạch hay không (bởi vì bạn có thể chỉ đơn giản là kế hoạch để thực hiện tất cả các so sánh có thể).

Thứ hai, tôi cũng sẽ tập trung vào cách các giá trị p kết quả được thảo luận sau đó. Chúng được sử dụng riêng lẻ để phục vụ một tập hợp các kết luận dứt khoát, hoặc chúng được thảo luận chung làm bằng chứng và thiếu bằng chứng?

Cuối cùng, tôi sẽ thảo luận về khả năng giả thuyết> 15 kết quả từ> 15 phép thử chi bình phương riêng biệt trên thực tế là biểu hiện của một vài giả thuyết (có thể là một giả thuyết) có thể được tóm tắt.

Tổng quát hơn, bất kể giả thuyết có được quy định trước hay không, sửa lỗi cho nhiều so sánh hay không là vấn đề bạn đưa vào lỗi loại I. Bằng cách không sửa lỗi cho MC, bạn chỉ giữ một kiểm soát tỷ lệ lỗi loại I. Vì vậy, trong trường hợp có nhiều so sánh, bạn có tỷ lệ lỗi loại I thuộc nhóm gia đình cao và do đó dễ bị phát hiện sai hơn.


8
(+1) Có thể đáng để đánh vần rằng tỷ lệ lỗi thông minh trong thử nghiệm không được kiểm soát bởi mười lăm so sánh riêng lẻ đang được lên kế hoạch; mặt khác, các so sánh có thể vượt quá mười lăm không được dự kiến ​​trong giao thức không cần phải được tính đến trong điều chỉnh nhiều so sánh.
Scortchi - Phục hồi Monica

@Scortchi Cảm ơn bạn đã nhập nhưng tôi không hiểu ý của bạn là gì bởi "tỷ lệ lỗi thông minh thử nghiệm không được kiểm soát bởi mười lăm so sánh riêng lẻ" đang được lên kế hoạch "?
peuhp

1
Chỉ cần điểm cơ bản là nếu bạn muốn kiểm soát xác suất theo giá trị null khi thực hiện một hoặc nhiều lỗi Loại I trong tất cả các thử nghiệm đó, bạn cần phải sử dụng quy trình so sánh nhiều lần. Tôi chỉ đề cập đến nó bởi vì tôi đã gặp phải sự nhầm lẫn về vấn đề này trước đây.
Scortchi - Phục hồi Monica

2
Lưu ý rằng chính xác vấn đề này đã xuất hiện trong một chủ đề rất gần đây: Ứng dụng Post Hoc của Nhiều So sánh .
Michael R. Chernick

1
@Scortchi. Ok cảm ơn cho sự làm rõ và đầu vào này, điều này thực sự cần được xác định rõ ràng trong câu trả lời của tôi. Sẽ thêm cái này.
peuhp

5

Với bản cập nhật của bạn về thiết kế, tôi sẽ đề nghị họ thực hiện một số dạng mô hình log-linear để sử dụng tất cả dữ liệu cùng một lúc. Thực hiện các phân tích bữa ăn mà họ đã làm dường như (a) không hiệu quả (b) không khoa học vì nó kiểm tra 15 giả thuyết trong đó chắc chắn có ít giả thuyết thực tế hơn.

Tôi không phải là người thích sửa lỗi cho đa bội như một phản xạ có điều kiện nhưng trong trường hợp này nếu họ từ chối cách tiếp cận phân tích sâu hơn thì tôi sẽ đề nghị họ sửa.


1
k15

1
χ2

4

Nếu bạn thay thế từ 'tiền khởi đầu' cho 'dự định', điều này có thể giúp xua tan lập luận được cung cấp bởi các tác giả. Xem xét hai phân tích thống kê khác nhau của cùng một dữ liệu:

  1. Một "tội phạm được dự tính trước" trong đó mọi thử nghiệm giả thuyết có thể được đặt ra trước một 'chủ mưu tội phạm thống kê', kế hoạch là thử từng cái một cách có hệ thống và chọn thử nghiệm có giá trị p nhỏ nhất làm 'phát hiện chính' để quảng bá trong phần Kết quả, Thảo luận và Kết luận của bài báo, và thực sự là Tiêu đề.
  2. Một "tội ác của đam mê" trong đó ý định ban đầu chỉ đơn thuần là đối đầu với dữ liệu với một giả thuyết, nhưng "ờ ... một điều dẫn đến một điều khác" và nhiều thử nghiệm giả thuyết ad hoc "chỉ xảy ra" trong sức nóng của đam mê khoa học học "cái gì đó ... bất cứ thứ gì! " từ dữ liệu.

Dù bằng cách nào, đó là 'giết người' - câu hỏi đặt ra là ở Cấp độ thứ nhất hay Cấp độ thứ hai. Rõ ràng, đầu tiên là vấn đề đạo đức hơn. Tôi nghe có vẻ như các tác giả ở đây đang cố gắng tuyên bố điều gì đó với tác động rằng đó không phải là vụ giết người vì nó đã được dự tính trước.


4
Nhưng thực hiện nhiều so sánh không phải là một tội ác, được dự tính trước hay không. P-săn là.
Vách đá AB

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.