Điều gì gây ra sự gián đoạn trong phân phối giá trị p được công bố tại p <.05?

Trong một bài báo gần đây , Masicampo và Lalande (ML) đã thu thập một số lượng lớn giá trị p được công bố trong nhiều nghiên cứu khác nhau. Họ quan sát thấy một bước nhảy tò mò trong biểu đồ của các giá trị p ngay ở mức quan trọng chính tắc là 5%.

Có một cuộc thảo luận thú vị về Hiện tượng ML này trên blog của Giáo sư Wasserman:

http://normaldeviate.wordpress.com/2012/08/16/p-values-gone-wild-and-multiscale-madness/

Trên blog của anh ấy, bạn sẽ tìm thấy biểu đồ:

Biểu đồ giá trị p được công bố

Vì mức 5% là quy ước và không phải là quy luật tự nhiên, điều gì gây ra hành vi này của phân phối theo kinh nghiệm của các giá trị p được công bố?

Lựa chọn thiên vị, "điều chỉnh" hệ thống các giá trị p ngay trên mức tới hạn chính tắc, hay là gì?

statistical-significance p-value meta-analysis

— Thiền
nguồn

Có ít nhất 2 loại giải thích: 1) "vấn đề ngăn kéo tệp" - các nghiên cứu với p <0,05 được công bố, những nghiên cứu trên không, vì vậy nó thực sự là một hỗn hợp của hai bản phân phối 2) Mọi người đang thao túng mọi thứ, có thể là vô thức , để có được p <.05

— Peter Flom - Tái lập Monica

Xin chào @Zen. Vâng, chính xác là loại điều. Có một xu hướng mạnh mẽ để làm những thứ như thế này. Nếu lý thuyết của chúng tôi được xác nhận, chúng tôi sẽ ít tìm kiếm các vấn đề thống kê hơn là không. Đây dường như là một phần của bản chất của chúng tôi, nhưng nó là một cái gì đó để cố gắng chống lại.

— Peter Flom - Tái lập Monica

@Zen Bạn có thể quan tâm đến bài đăng này trên blog của Andrew Gelman đề cập đến một số nghiên cứu cho thấy rằng không có sự thiên vị xuất bản trong nghiên cứu về xu hướng xuất bản ...! andrewgelman.com/2012/04/ trên

— smillig

Điều thú vị là tính toán lại các giá trị p từ các bài báo trong các tạp chí từ chối rõ ràng các bài báo dựa trên giá trị p, như Dịch tễ học đã từng (và trong một số giác quan, vẫn còn). Tôi tự hỏi nếu nó thay đổi nếu tạp chí ra và nói rằng nó không quan tâm, hoặc nếu các nhà phê bình / tác giả vẫn đang thực hiện kiểm tra đặc biệt dựa trên khoảng tin cậy.

— Fomite

Như đã giải thích trên blog của Larry, đây là một tập hợp các giá trị p được công bố, chứ không phải là một mẫu ngẫu nhiên của các giá trị p được lấy mẫu từ Thế giới giá trị p. Do đó, không có lý do nào để phân phối đồng đều xuất hiện trong ảnh, ngay cả khi là một phần của hỗn hợp như được mô hình hóa trong bài của Larry.

— Tây An

Câu trả lời:

(1) Như đã được đề cập bởi @PeterFlom, một lời giải thích có thể liên quan đến vấn đề "ngăn kéo tập tin". (2) @Zen cũng đề cập đến trường hợp tác giả thao tác (các) dữ liệu hoặc mô hình (ví dụ: nạo vét dữ liệu ). (3) Tuy nhiên, chúng tôi không kiểm tra các giả thuyết trên cơ sở hoàn toàn ngẫu nhiên. Đó là, các giả thuyết không được chọn một cách tình cờ nhưng chúng ta có giả định lý thuyết (ít nhiều mạnh mẽ).

Bạn cũng có thể quan tâm đến các tác phẩm của Gerber và Malhotra, người gần đây đã tiến hành nghiên cứu trong lĩnh vực đó áp dụng cái gọi là "thử nghiệm caliper":

Bạn cũng có thể quan tâm đến vấn đề đặc biệt này được chỉnh sửa bởi Andreas Diekmann:

Vật phẩm phương pháp, Thao tác dữ liệu và gian lận trong kinh tế và khoa học xã hội

— Bernd Weiss
nguồn

Một lập luận còn thiếu cho đến nay là tính linh hoạt của phân tích dữ liệu được gọi là mức độ tự do của các nhà nghiên cứu. Trong mọi phân tích, có rất nhiều quyết định được đưa ra, nơi đặt tiêu chí ngoại lệ, cách chuyển đổi dữ liệu và ...

Điều này gần đây đã được nêu ra trong một bài viết có ảnh hưởng của Simmons, Nelson và Simonsohn:

Simmons, JP, Nelson, LD, & Simonsohn, Hoa Kỳ (2011). Tâm lý học tích cực sai: Tính linh hoạt không được tiết lộ trong thu thập và phân tích dữ liệu cho phép trình bày bất cứ điều gì quan trọng. Khoa học tâm lý , 22 (11), 1359 Mạnh1366. doi: 10.1177 / 0956797611417632

(Lưu ý rằng đây là cùng Simonsohn chịu trách nhiệm cho một số trường hợp gian lận dữ liệu được phát hiện gần đây trong Tâm lý học xã hội, ví dụ: phỏng vấn , bài đăng trên blog )

— Henrik
nguồn

Tôi nghĩ đó là sự kết hợp của tất cả mọi thứ đã được nói. Đây là dữ liệu rất thú vị và tôi chưa từng nghĩ đến việc xem xét phân phối giá trị p như thế này trước đây. Nếu giả thuyết null là đúng, giá trị p sẽ đồng nhất. Nhưng tất nhiên với kết quả được công bố, chúng tôi sẽ không thấy sự đồng nhất vì nhiều lý do.

Chúng tôi thực hiện nghiên cứu vì chúng tôi hy vọng giả thuyết null là sai. Vì vậy, chúng ta sẽ nhận được kết quả quan trọng thường xuyên hơn không.
Nếu giả thuyết khống là sai chỉ bằng một nửa thời gian chúng ta sẽ không nhận được phân phối đồng nhất các giá trị p.
Sự cố ngăn kéo tệp: Như đã đề cập, chúng tôi sẽ ngại gửi giấy khi giá trị p không đáng kể, ví dụ dưới 0,05.
Các nhà xuất bản sẽ từ chối giấy vì kết quả không quan trọng mặc dù chúng tôi đã chọn gửi nó.
Khi kết quả ở trên đường biên giới, chúng tôi sẽ làm mọi thứ (có thể không với mục đích xấu) để có được ý nghĩa. (a) làm tròn xuống 0,05 khi giá trị p là 0,053, (b) tìm thấy các quan sát mà chúng tôi nghĩ có thể là ngoại lệ và sau khi di chuyển chúng, giá trị p giảm xuống dưới 0,05.

Tôi hy vọng điều này tóm tắt tất cả mọi thứ đã được nói một cách hợp lý dễ hiểu.

Những gì tôi nghĩ là quan tâm là chúng ta thấy giá trị p trong khoảng 0,05 đến 0,1. Nếu quy tắc xuất bản là từ chối bất cứ điều gì có giá trị p trên 0,05 thì đuôi bên phải sẽ bị cắt ở mức 0,05. Nó thực sự đã bị cắt ở 0.10? nếu vậy có thể một số tác giả và một số tạp chí sẽ chấp nhận mức ý nghĩa 0,10 nhưng không có gì cao hơn.

Vì nhiều bài viết bao gồm một số giá trị p (được điều chỉnh theo bội số hay không) và bài báo được chấp nhận vì các bài kiểm tra chính có ý nghĩa, chúng tôi có thể thấy các giá trị p không đáng kể có trong danh sách. Điều này đặt ra câu hỏi "Có phải tất cả các giá trị p được báo cáo trong bài báo được bao gồm trong biểu đồ không?"

Một quan sát bổ sung là có một xu hướng đáng kể về tần suất xuất bản của các bài báo được công bố khi giá trị p trở nên thấp hơn 0,05. Có lẽ đó là một dấu hiệu của các tác giả diễn giải quá mức suy nghĩ giá trị p p <0,0001 đáng để xuất bản hơn nhiều. Tôi nghĩ rằng tác giả bỏ qua hoặc không nhận ra rằng giá trị p phụ thuộc nhiều vào kích thước mẫu cũng như độ lớn của kích thước hiệu ứng.

— Michael R. Chernick
nguồn