Phương sai cao của phân phối giá trị p (một đối số trong Taleb 2016)


16

Tôi đang cố gắng để hiểu được tuyên bố về bức tranh lớn được đưa ra trong Taleb, 2016, Phân phối tổng hợp các giá trị P chuẩn .

Trong đó, Taleb đưa ra lập luận sau đây về tính không đáng tin cậy của giá trị p (theo tôi hiểu):

Một thủ tục ước tính hoạt động trên điểm dữ liệu đến từ một số phân phối X xuất giá trị ap. Nếu chúng ta rút ra thêm n điểm từ phân phối này và đưa ra một giá trị p khác, chúng ta có thể lấy trung bình các giá trị p này đạt được trong giới hạn cái gọi là "giá trị p thực".nX

"Giá trị p thực" này được hiển thị là có phương sai cao đáng lo ngại, do đó, một thủ tục phân phối + với "giá trị p thực" sẽ 60% thời gian báo cáo giá trị p là <0,05..12

Câu hỏi : làm thế nào điều này có thể được đối chiếu với các đối số truyền thống có lợi cho giá trị . Theo tôi hiểu, giá trị p được cho là cho bạn biết bao nhiêu phần trăm thời gian thủ tục của bạn sẽ cung cấp cho bạn khoảng thời gian chính xác (hoặc bất cứ điều gì). Tuy nhiên, bài viết này dường như lập luận rằng cách giải thích này là sai lệch vì giá trị p sẽ không giống nhau nếu bạn chạy lại thủ tục.p

Tôi có bị mất điểm không?


1
Bạn có thể giải thích "đối số truyền thống" này là gì không? Tôi không chắc chắn tôi rõ ràng những gì bạn đang xem xét đối số.
Glen_b -Reinstate Monica

Câu hỏi rất thú vị và liên quan đến một tài liệu mà CV thậm chí có thẻ, kết hợp các giá trị p mà bạn có thể muốn thêm nếu bạn nghĩ nó phù hợp.
mdewey

1
Tôi tin rằng câu hỏi về độ tái lập của giá trị p có thể liên quan rất chặt chẽ với giá trị này. Có lẽ phân tích ở đó tương tự (hoặc thậm chí giống nhau) như được đề cập ở đây.
whuber

Câu trả lời:


13

Giá trị p là một biến ngẫu nhiên.

Theo (ít nhất là cho thống kê phân phối liên tục), giá trị p phải có phân phối đồng đềuH0

Đối với phép thử nhất quán, dưới , giá trị p sẽ về 0 trong giới hạn khi kích thước mẫu tăng dần về vô cực. Tương tự, khi kích thước hiệu ứng tăng phân phối giá trị p cũng sẽ có xu hướng dịch chuyển về 0, nhưng nó sẽ luôn luôn được "trải ra".H1

Khái niệm giá trị p "thật" nghe có vẻ vô nghĩa với tôi. Điều đó có nghĩa là gì, dưới hoặc H 1 ? Ví dụ, bạn có thể nói rằng bạn có nghĩa là " giá trị trung bình của phân phối giá trị p ở một số kích thước hiệu ứng và kích thước mẫu nhất định ", nhưng theo nghĩa nào thì bạn có sự hội tụ nơi lan truyền nên thu hẹp? Không giống như bạn có thể tăng kích thước mẫu trong khi bạn giữ nó không đổi.H0H1

Đây là một ví dụ với một thử nghiệm t mẫu và kích thước hiệu ứng nhỏ theo . Các giá trị p gần như đồng nhất khi kích thước mẫu nhỏ và phân phối tập trung từ từ về 0 khi kích thước mẫu tăng.H1

nhập mô tả hình ảnh ở đây

Đây chính xác là cách các giá trị p được cho là hành xử - đối với giá trị sai, khi kích thước mẫu tăng, các giá trị p sẽ trở nên tập trung hơn ở các giá trị thấp, nhưng không có gì cho thấy sự phân phối các giá trị cần có khi bạn tạo ra lỗi loại II - khi giá trị p cao hơn bất kỳ mức ý nghĩa nào của bạn - bằng cách nào đó sẽ kết thúc "gần" với mức ý nghĩa đó.

α= =0,05

Việc xem xét những gì đang xảy ra cả với phân phối của bất kỳ thống kê kiểm tra nào bạn sử dụng theo phương án thay thế và áp dụng cdf theo null là một chuyển đổi để thực hiện phân phối (sẽ cung cấp phân phối giá trị p theo sự thay thế cụ thể). Khi bạn nghĩ theo những thuật ngữ này, thường không khó để hiểu tại sao hành vi lại như vậy.

Vấn đề như tôi thấy không quá nhiều đến nỗi có bất kỳ vấn đề cố hữu nào với kiểm tra giá trị p hoặc giả thuyết, đó là trường hợp kiểm tra giả thuyết là một công cụ tốt cho vấn đề cụ thể của bạn hay liệu điều gì khác sẽ phù hợp hơn trong bất kỳ trường hợp cụ thể nào - đó không phải là một tình huống đối với các chính sách rộng lớn mà là một trong những cân nhắc cẩn thận về loại câu hỏi mà giả thuyết kiểm tra giải quyết và các nhu cầu cụ thể về hoàn cảnh của bạn. Thật không may, việc xem xét cẩn thận các vấn đề này hiếm khi được thực hiện - tất cả mọi người thường thấy một câu hỏi có dạng "tôi sử dụng thử nghiệm nào cho những dữ liệu này?" mà không có bất kỳ xem xét về câu hỏi quan tâm có thể là gì, hãy để một mình xem liệu một số thử nghiệm giả thuyết là một cách tốt để giải quyết nó.

Một khó khăn là các bài kiểm tra giả thuyết đều bị hiểu lầm và sử dụng rộng rãi; mọi người thường nghĩ rằng họ nói với chúng ta những điều mà họ không làm. Giá trị p có thể là điều đơn giản nhất bị hiểu sai về các bài kiểm tra giả thuyết.


pnm

nnn

1
H1H1

3
n

3
+1. Một phân tích liên quan - và thú vị - xuất hiện trong đầu tôi là cái mà Geoff Cumming gọi là "Một điệu nhảy của giá trị p": xem youtube.com/watch?v=5OL1RqHrZQ8 ("điệu nhảy" xảy ra trong khoảng 9 phút) . Toàn bộ phần trình bày nhỏ này về cơ bản nhấn mạnh đến việc các giá trị p thay đổi như thế nào đối với công suất tương đối cao. Tôi không hoàn toàn đồng ý với quan điểm chính của Cumming rằng khoảng tin cậy tốt hơn nhiều so với giá trị p (và tôi ghét việc anh ta gọi đó là "số liệu thống kê mới"), nhưng tôi nghĩ rằng sự thay đổi số lượng này gây ngạc nhiên cho nhiều người và "khiêu vũ" là một cách dễ thương để chứng minh điều đó.
amip nói phục hồi Monica

10

Câu trả lời của Glen_b là tại chỗ (+1; xem xét bổ sung của tôi). Bài báo mà Taleb tham khảo về cơ bản rất giống với một loạt các bài báo trong tâm lý học và thống kê tài liệu về loại thông tin bạn có thể lượm lặt được từ việc phân tích các phân phối giá trị p (cái mà các tác giả gọi là đường cong p ; một loạt các tài nguyên, bao gồm một ứng dụng phân tích đường cong p ở đây ).

Các tác giả đề xuất hai cách sử dụng chính của đường cong p:

  1. Bạn có thể đánh giá giá trị bằng chứng của một tài liệu bằng cách phân tích đường cong p của tài liệu . Đây là lần đầu tiên họ quảng cáo sử dụng đường cong p. Về cơ bản, như Glen_b mô tả, khi bạn xử lý các kích thước hiệu ứng khác không, bạn sẽ thấy các đường cong p bị lệch dương dưới ngưỡng thông thường của p <.05, vì các giá trị p nhỏ hơn sẽ có nhiều khả năng hơn p- giá trị gần với p hơn= 0,05 khi một hiệu ứng (hoặc nhóm hiệu ứng) là "thực". Do đó, bạn có thể kiểm tra đường cong p cho độ lệch dương đáng kể như là một thử nghiệm về giá trị bằng chứng. Ngược lại, các nhà phát triển đề xuất rằng bạn có thể thực hiện kiểm tra độ lệch âm (nghĩa là các giá trị p-valuesthan nhỏ hơn đáng kể) như một cách để kiểm tra xem một tập hợp hiệu ứng nhất định có phải chịu các thực tiễn phân tích đáng ngờ khác nhau hay không.
  2. Bạn có thể tính toán ước tính phân tích meta miễn phí thiên vị xuất bản về kích thước hiệu ứng bằng cách sử dụng đường cong p với giá trị p được công bố . Đây là một câu hỏi khó hơn để giải thích ngắn gọn, và thay vào đó, tôi khuyên bạn nên kiểm tra các bài báo tập trung vào ước lượng kích thước hiệu ứng của chúng (Simonsohn, Nelson, & Simmons, 2014a, 2014b) và tự mình đọc các phương pháp. Nhưng về cơ bản, các tác giả cho rằng đường cong p có thể được sử dụng để khắc phục vấn đề về hiệu ứng ngăn kéo tệp, khi tiến hành phân tích tổng hợp.

Vì vậy, như câu hỏi rộng hơn của bạn về:

làm thế nào điều này có thể được đối chiếu với các đối số truyền thống có lợi cho giá trị p?

Tôi muốn nói rằng các phương pháp như Taleb (và các phương pháp khác) đã tìm ra cách tái sử dụng các giá trị p, để chúng ta có thể nhận được thông tin hữu ích về toàn bộ văn học bằng cách phân tích các nhóm giá trị p, trong khi một giá trị p có thể là hạn chế hơn nhiều về tính hữu dụng của nó.

Người giới thiệu

Simonsohn, U., Nelson, LD, & Simmons, JP (2014a). Đường cong P: Một khóa để ngăn kéo tập tin. Tạp chí Tâm lý học Thực nghiệm: Chung , 143 , 534 Từ547.

Simonsohn, U., Nelson, LD, & Simmons, JP (2014b). P-Curve và Kích thước hiệu ứng: Sửa lỗi cho xu hướng xuất bản chỉ sử dụng kết quả quan trọng. Quan điểm về khoa học tâm lý , 9 , 666-681.

Simonsohn, Hoa Kỳ, Simmons, JP, & Nelson, LD (2015). Đường cong P tốt hơn: Làm cho phân tích đường cong P mạnh mẽ hơn đối với các lỗi, gian lận và hack P đầy tham vọng, Trả lời Ulrich và Miller (2015). Tạp chí Tâm lý học Thực nghiệm: Chung , 144 , 1146-1152.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.