Cumming (2008) tuyên bố rằng phân phối giá trị p thu được trong các bản sao chỉ phụ thuộc vào giá trị p gốc. Làm thế nào nó có thể đúng?


52

Tôi đã đọc Bản saopp p p giấy của 2008 của Geoff Cumming : Các giá trị dự đoán tương lai một cách mơ hồ, nhưng khoảng tin cậy làm tốt hơn nhiều [~ 200 trích dẫn trong Google Scholar] - và bị nhầm lẫn bởi một trong những tuyên bố trung tâm của nó. Đây là một trong loạt bài báo mà Cumming lập luận chống lại giá trị và ủng hộ khoảng tin cậy; tuy nhiên, câu hỏi của tôi không phải là về cuộc tranh luận này và chỉ liên quan đến một yêu cầu cụ thể về giá trị .pp

Hãy để tôi trích dẫn từ bản tóm tắt:

Bài viết này cho thấy rằng, nếu một thử nghiệm ban đầu cho kết quả hai đuôi , có khả năng giá trị một đuôi từ một bản sao sẽ rơi vào khoảng , a cơ hội mà và hoàn toàn cơ hội mà . Đáng chú ý, khoảng cách giữa các dòng được gọi là một khoảng thời gian rộng, tuy nhiên kích thước mẫu này lớn.80 % p ( .00008 , .44 ) 10 % p < .00008 10 % p > .44 pp=.0580%p(.00008,.44)10%p<.0000810%p>.44p

Cumming tuyên bố rằng " khoảng " này và trên thực tế là toàn bộ phân phối giá trị mà người ta sẽ có được khi sao chép thử nghiệm ban đầu (với cùng cỡ mẫu cố định), chỉ phụ thuộc vào -value và không phụ thuộc vào kích thước hiệu ứng thực, sức mạnh, cỡ mẫu hoặc bất cứ thứ gì khác:p p p o b tppppobt

[...] phân phối xác suất của có thể được lấy mà không cần biết hoặc giả sử giá trị cho (hoặc sức mạnh). [...] Chúng tôi không thừa nhận bất kỳ kiến ​​thức nào trước đây về và chúng tôi chỉ sử dụng thông tin [quan sát sự khác biệt giữa các nhóm] đưa ra về làm cơ sở cho việc tính toán cho một của phân phối và của các khoảng .δ δ M d i f f δ p o b t p ppδδMdiffδpobtpp

Cumming 2008

Tôi bối rối bởi điều này bởi vì đối với tôi, dường như việc phân phối giá trị phụ thuộc rất nhiều vào sức mạnh, trong khi bản thân không cung cấp bất kỳ thông tin nào về nó. Có thể là kích thước hiệu ứng thực sự là và sau đó phân phối là đồng nhất; hoặc có thể kích thước hiệu ứng thực sự là rất lớn và sau đó chúng ta nên mong đợi giá trị rất nhỏ . Tất nhiên người ta có thể bắt đầu với việc giả định một số kích thước hiệu ứng có thể có trước và tích hợp vào nó, nhưng Cumming dường như tuyên bố rằng đây không phải là điều anh ta đang làm.p o b t δ = 0 pppobtδ=0p

Câu hỏi: Chính xác thì chuyện gì đang xảy ra ở đây?


Lưu ý rằng chủ đề này có liên quan đến câu hỏi này: Phần nào của các thử nghiệm lặp lại sẽ có kích thước hiệu ứng trong khoảng tin cậy 95% của thử nghiệm đầu tiên? với một câu trả lời tuyệt vời của @whuber. Cumming có một bài viết về chủ đề này để: Cumming & Maillardet, 2006, Khoảng tin cậy và sao chép: Nơi tiếp theo sẽ có nghĩa là gì? - nhưng cái đó rõ ràng và không có gì khó hiểu.

Tôi cũng lưu ý rằng khiếu nại của Cumming được lặp đi lặp lại nhiều lần trong bài viết Phương pháp tự nhiên 2015 Giá trị thay đổi tạo ra kết quả không thể chấpP nhận được mà một số bạn có thể đã gặp phải (nó đã có ~ 100 trích dẫn trong Google Scholar):

[...] sẽ có sự thay đổi đáng kể về giá trị của các thí nghiệm lặp lại. Trong thực tế, các thí nghiệm hiếm khi được lặp lại; chúng ta không biết tiếp theo có thể khác nhau như thế nào . Nhưng nó có khả năng là nó rất khác nhau. Ví dụ: bất kể sức mạnh thống kê của một thử nghiệm, nếu một bản sao duy nhất trả về giá trị , có khả năng một thử nghiệm lặp lại sẽ trả về giá trị trong khoảng từ đến (và thay đổi [sic] rằng sẽ còn lớn hơn nữa).P P 0,05 80 % P 0 0,44 20 % PPPP0.0580%P00.4420%P

(Lưu ý, bằng cách này, bằng cách nào, bất kể tuyên bố của Cumming có đúng hay không, bài báo của Phương pháp Tự nhiên trích dẫn nó không chính xác: theo Cumming, chỉ có xác suất trên . Và vâng, bài báo có ghi "20% chan g e ". Pfff.)0,4410%0.44


8
Sẽ không có bất kỳ loại yêu cầu nào như thế này phải có điều kiện dựa trên trạng thái tự nhiên giả định - và mặc định đó có phải là giả thuyết không? Đối với các giả thuyết null đơn giản và thống kê phân phối liên tục , giá trị p có phân phối đồng đều. Mọi thứ chảy từ thực tế đó.
whuber

4
@whuber Chà, các bản phân phối được hiển thị trên Hình 5 mà tôi đã sao chép ở đây rõ ràng không đồng nhất. Tôi đồng ý mặc dù bất kỳ phân phối như vậy, dường như, phải có điều kiện về trạng thái tự nhiên, nhưng Cumming dường như tuyên bố điều ngược lại. Do đó câu hỏi của tôi: những gì đang thực sự xảy ra trong bài báo này? Tôi có hiểu nhầm yêu cầu không? Là giấy đơn giản là sai? Chúng ta có thể tìm ra một số giả định ẩn? V.v.
amip nói Phục hồi lại

Lưu ý cho bản thân tôi: arxiv.org/abs/1609.01664 này rõ ràng có liên quan nhưng một cái liếc nhanh không giải quyết được sự bối rối của tôi.
amip nói phục hồi Monica

1
Tôi ước tôi đã không đưa ra trận chung kết trong tuần này hoặc tôi sẽ dành thời gian cho nó. Điều đó không có nghĩa là giá trị p tiếp theo sẽ phụ thuộc vào nguồn điện, miễn là cả hai kích thước mẫu đều giống nhau. Giá trị p được quan sát chỉ nên phụ thuộc vào giá trị thực của tham số và lựa chọn null của bạn. Tính hữu ích của ước tính phụ thuộc vào sức mạnh, nhưng đó không phải là một câu hỏi ở đây.
Dave Harris

3
Tôi rời khỏi giải đấu của mình ở đây ... nhưng đọc lướt qua tờ giấy, có vẻ như mọi thứ đều nằm trong bối cảnh thử nghiệm cho sự khác biệt đáng kể về phương tiện của hai quần thể Gaussian có cùng phương sai và cỡ mẫu đã biết, với giá trị 0 Điều này có đúng không? (ví dụ trong đó dưới null.) Hoặc giấy có phạm vi rộng hơn, như câu hỏi / ý kiến ​​ở đây dường như chỉ ra? z=deltaLz=Δx¯σN2Nz,1z=ΔμσN2=0
GeoMatt22

Câu trả lời:


21

Tóm tắt: Thủ thuật dường như là một cách tiếp cận Bayes giả sử đồng phục ( Jeffreys ) trước tham số ẩn ( trong phụ lục B của bài báo, ở đây). qzμθ

Tôi tin rằng có thể có một cách tiếp cận theo kiểu Bayes để có được các phương trình được đưa ra trong phụ lục B. của bài báo.

Theo tôi hiểu, thí nghiệm rút gọn thành một thống kê . Giá trị trung bình của phân phối lấy mẫu là không xác định, nhưng biến mất theo giả thuyết null, . q q |zNθ,1θθH0=0

Gọi số liệu thống kê quan sát thực nghiệm . Sau đó, nếu chúng tôi giả sử "đồng phục" ( không chính xác ) trước , thì hậu thế Bayes là . Sau đó, nếu chúng tôi cập nhật phân phối lấy mẫu ban đầu bằng cách đặt lề trên , thì hậu thế sẽ trở thành . (Phương sai nhân đôi là do tích chập của Gaussian.)z^θNθ,1θ1θz^Nz^,1θz^zz^Nz^,2

Về mặt toán học ít nhất, điều này dường như làm việc. Và nó giải thích làm thế nào yếu tố "kỳ diệu" xuất hiện từ phương trình B2 đến phương trình B3.12


Thảo luận

Làm thế nào kết quả này có thể được đối chiếu với khung thử nghiệm giả thuyết null tiêu chuẩn? Một cách giải thích có thể là như sau.

Trong khuôn khổ tiêu chuẩn, giả thuyết null theo nghĩa nào đó là "mặc định" (ví dụ: chúng ta nói về "từ chối null"). Trong bối cảnh Bayes ở trên, đây sẽ là một trường hợp không đồng nhất trước đó thích . Nếu chúng ta coi đây là , thì phương sai đại diện cho sự không chắc chắn trước đó của chúng ta.θ=0θN0,λ2λ2

Thực hiện điều này trước khi phân tích ở trên, chúng tôi tìm thấy Từ đây, chúng ta có thể thấy rằng trong giới hạn chúng tôi phục hồi các phân tích ở trên. Nhưng trong giới hạn "hậu thế" của chúng tôi trở thành null, và , vì vậy chúng tôi phục hồi kết quả tiêu chuẩn, .

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]
λλ0θz^N0,0zz^N0,1pz^U0,1

(Đối với các nghiên cứu lặp đi lặp lại, ở trên cho thấy một câu hỏi thú vị ở đây về ý nghĩa của việc cập nhật Bayes so với các phương pháp "truyền thống" để phân tích tổng hợp. Mặc dù vậy, tôi hoàn toàn không biết gì về chủ đề phân tích tổng hợp!)


ruột thừa

Theo yêu cầu trong các ý kiến, đây là một âm mưu để so sánh. Đây là một ứng dụng tương đối đơn giản của các công thức trong bài báo. Tuy nhiên tôi sẽ viết những điều này ra để đảm bảo không có sự mơ hồ.

Đặt biểu thị giá trị p một phía cho thống kê và biểu thị CDF (sau) của nó bằng . Khi đó phương trình B3 từ phụ lục tương đương với trong đó là CDF tiêu chuẩn thông thường. Mật độ tương ứng là trong đó là PDF thông thường tiêu chuẩn và như trong công thức CDF. Cuối cùng, nếu chúng ta biểu thị bằng thì quan sát đượcpzF[u]Pr[puz^]

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]
Φ[]
f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]
ϕ[]z=z[p]p^Giá trị p hai mặt tương ứng với , khi đó chúng ta có z^
z^=Φ1[1p^2]

Sử dụng những phương trình cho hình bên dưới, mà nên được so sánh với của giấy con số 5 được trích dẫn trong câu hỏi. "Sinh sản" của Cumming (2008) Hình 5 thông qua các công thức được đăng.

(Điều này được tạo bởi mã Matlab sau; chạy ở đây .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));

1
Hy vọng của tôi là bằng cách đưa ra giả định cơ bản (ví dụ thống nhất trước thông số ẩn), giờ đây cuộc thảo luận có thể tập trung vào câu hỏi khoa học / thống kê mà tôi tin là mục tiêu của bạn! (Thay vì câu hỏi toán học / xác suất tôi đã trả lời ở trên.)
GeoMatt22

Tôi tìm thấy một số cuộc thảo luận cũ và không quá cũ về chủ đề này: Goodman 1992 , một nhận xét về Goodman của Senn 2002 , và một Lazzeroni et al 2014 gần đây . Cái cuối cùng có vẻ không hữu ích (nhưng tôi đề cập đến nó cho đầy đủ) nhưng hai cái đầu tiên, đặc biệt là nhận xét của Senn, có vẻ rất phù hợp.
amip nói phục hồi Monica

amip cảm ơn bạn đã đào những tài liệu tham khảo này, chúng trông thú vị! Để hoàn thiện, tôi đã thêm phần "thảo luận" cố gắng kết nối kết quả Cumming và khung tiêu chuẩn.
GeoMatt22

Cập nhật: Tôi đã đọc các bài viết của Goodman và Senn được liên kết ở trên và hiện đã đăng câu trả lời của riêng tôi để tóm tắt trực giác hiện tại của tôi. (Bằng cách này, tôi đã vui vẻ chấp nhận câu trả lời của bạn và giải thưởng nó bounty Cảm ơn một lần nữa..)
amip nói Khôi phục Monica

27

Cảm ơn tất cả các cuộc thảo luận thú vị! Khi viết bài báo năm 2008 đó, tôi đã mất một thời gian để thuyết phục bản thân rằng phân phối sao chép p ( giá trị p được cung cấp bởi một bản sao chính xác của một nghiên cứu, nghĩa là một nghiên cứu hoàn toàn giống nhau, nhưng với một mẫu mới) phụ thuộc chỉ trên p được đưa ra bởi nghiên cứu ban đầu. (Trong bài báo tôi giả sử dân số phân phối bình thường và lấy mẫu ngẫu nhiên, và các nghiên cứu của chúng tôi nhằm ước tính giá trị trung bình của dân số.) Do đó, khoảng p (khoảng dự đoán 80% cho sao chép p ) là như nhau, bất kể N , sức mạnh, hoặc kích thước hiệu quả thực sự của nghiên cứu ban đầu.

Chắc chắn, đó là lúc đầu không thể tin được. Nhưng lưu ý cẩn thận rằng tuyên bố ban đầu của tôi dựa trên việc biết p từ nghiên cứu ban đầu. Nghĩ theo cách này. Giả sử bạn nói với tôi rằng nghiên cứu ban đầu của bạn đã tìm thấy p = 0,05. Bạn nói với tôi không có gì khác về nghiên cứu. Tôi biết rằng 95% CI trên mẫu của bạn có nghĩa là chính xác kéo dài đến không (giả sử p được tính cho giả thuyết không bằng 0). Vì vậy, giá trị trung bình mẫu của bạn là MoE (chiều dài của một nhánh của 95% CI đó), bởi vì đó là khoảng cách từ 0. Phân phối mẫu của phương tiện từ các nghiên cứu như của bạn có độ lệch chuẩn MoE / 1.96. Đó là lỗi tiêu chuẩn.

Xem xét giá trị trung bình được đưa ra bởi một bản sao chính xác. Phân phối của ý nghĩa sao chép đó có nghĩa là MoE, nghĩa là phân phối đó được tập trung vào trung bình mẫu ban đầu của bạn. Xem xét sự khác biệt giữa trung bình mẫu của bạn và trung bình nhân rộng. Nó có phương sai bằng tổng phương sai của giá trị trung bình của các nghiên cứu như nghiên cứu ban đầu và các bản sao của bạn. Đó là gấp đôi phương sai của các nghiên cứu như nghiên cứu ban đầu của bạn, tức là 2 x SE ^ 2. Đó là 2 x (MoE / 1.96) ^ 2. Vì vậy, SD của sự khác biệt đó là SQRT (2) x MoE / 1.96.

Do đó, chúng tôi biết phân phối của bản sao có nghĩa là: ý nghĩa của nó là MoE và SD của nó là SQRT (2) x MoE / 1.96. Chắc chắn, quy mô ngang là tùy ý, nhưng chúng ta chỉ cần biết phân phối này liên quan đến CI từ nghiên cứu ban đầu của bạn. Khi các bản sao được chạy, hầu hết các phương tiện (khoảng 83%) sẽ rơi vào 95% CI ban đầu đó và khoảng 8% sẽ giảm xuống dưới mức đó (tức là dưới 0, nếu giá trị ban đầu của bạn là> 0) và cao hơn 8% CI. Nếu chúng tôi biết vị trí của một bản sao có liên quan đến CI ban đầu của bạn, chúng tôi có thể tính giá trị p của nó . Chúng tôi biết việc phân phối các phương tiện sao chép như vậy (liên quan đến CI của bạn) để chúng tôi có thể tìm ra sự phân phối của bản sao pgiá trị. Giả định duy nhất mà chúng tôi đưa ra về sao chép là nó chính xác, tức là nó đến từ cùng một quần thể, có cùng kích thước, như nghiên cứu ban đầu của bạn và N (và thiết kế thử nghiệm) giống như trong nghiên cứu của bạn .

Tất cả các bên trên chỉ là một phần còn lại của các đối số trong bài viết, không có hình ảnh.

Vẫn không chính thức, có thể hữu ích để suy nghĩ p = 0,05 trong nghiên cứu ban đầu ngụ ý gì. Nó có thể có nghĩa là bạn có một nghiên cứu khổng lồ với kích thước hiệu ứng nhỏ hoặc một nghiên cứu nhỏ với kích thước hiệu ứng khổng lồ. Dù bằng cách nào, nếu bạn lặp lại nghiên cứu đó (cùng N , cùng dân số) thì bạn sẽ không nghi ngờ gì về một ý nghĩa mẫu hơi khác. Nó chỉ ra rằng, về mặt giá trị p , "hơi khác" là như nhau, cho dù bạn có nghiên cứu lớn hay nhỏ. Vì vậy, chỉ cho tôi biết giá trị p của bạn và tôi sẽ cho bạn biết khoảng p của bạn .

Geoff


8
Cảm ơn rất nhiều vì đã đăng ký trên trang web này để trả lời câu hỏi của tôi! Tôi đánh giá cao nó rất nhiều. Tôi vẫn chưa bị thuyết phục nhưng tôi sẽ dành thời gian để suy ngẫm về câu trả lời của bạn. Cảm giác hiện tại của tôi là bạn đưa ra một quan điểm hợp lệ, nhưng tôi không đồng ý về cách bạn xây dựng nó. Một phản đối đơn giản: p = 0,05 phù hợp với H0 là đúng. Nếu H0 là đúng, p sẽ nằm trong khoảng 0,04-0,05 trong 1% thời gian. Nếu đây là trường hợp, phân phối giá trị p sao chép sẽ đồng nhất từ ​​0 đến 1. Nhưng bạn dự đoán một phân phối khác cho p = 0,05 ban đầu trong mọi trường hợp . Làm thế nào người ta nên nghĩ về nó?
amip nói rằng Phục hồi lại

7
Một giả định ngầm trong lập luận này có vẻ không thể đo lường được: đó là một "bản sao chính xác" có ý nghĩa tương đương với MoE. Nếu bằng cách "sao chép chính xác", chúng tôi có nghĩa là lặp lại thí nghiệm với cùng trạng thái tự nhiên, thì sự phân bố của thống kê kiểm tra là không xác định: nó phụ thuộc vào trạng thái tự nhiên. Ngoài việc áp dụng quan điểm Bayes - có nghĩa là bạn cần nói rõ ràng trước - về cách duy nhất để đạt được tiến bộ là tính toán xác suất trước khi bản gốc hoặc bản sao được thực hiện, không có điều kiện trên bản sao.
whuber

2
@ user43849 Tôi, với tất cả sự tôn trọng, gửi rằng một người như vậy không hiểu giá trị p là gì. Một giá trị p nói ít hoặc không có gì về các thí nghiệm trong tương lai . Có một khái niệm thường xuyên về khoảng dự đoán được áp dụng trực tiếp tại đây: câu hỏi về sao chép chỉ đơn giản liên quan đến khoảng dự đoán cho giá trị p của một thử nghiệm trong tương lai. Câu trả lời là có cơ sở trong lý thuyết thống kê cổ điển, không yêu cầu các khái niệm sáng tạo, và (chắc chắn) không phải là Bayes về tinh thần.
whuber

2
@whuber đào sâu vào bài báo, tôi tin rằng có thể có một giả định Bayes ngầm ẩn trong bài tập (xem câu trả lời của tôi).
GeoMatt22

1
@GeoMatt Vâng, đó có vẻ là cách duy nhất để biện minh cho các tính toán.
whuber

10

Vấn đề đã được @ GeoMatt22 làm rõ và tôi rất vui khi thấy @GeoffCumming đến đây để tham gia thảo luận. Tôi đang đăng câu trả lời này như một bình luận thêm.


Hóa ra, cuộc thảo luận này ít nhất là quay lại với Goodman (1992) Một nhận xét về sao chép, giá trị và bằng chứng P and và thư trả lời Senn (2002) sau đó cho Biên tập viên . Tôi rất có thể khuyên bạn nên đọc hai bài báo ngắn này, đặc biệt là bài của Stephen Senn; Tôi thấy mình hoàn toàn đồng ý với Senn.

Nếu tôi đã đọc những giấy tờ này trước khi đặt câu hỏi này, rất có thể tôi sẽ không bao giờ đăng nó. Goodman (không giống như Cumming) nói rất rõ rằng anh ta xem xét một khung cảnh Bayes với một căn hộ trước. Anh ta không trình bày các phân phối giá trị như Cumming, và thay vào đó báo cáo xác suất quan sát kết quả "đáng kể" trong một thử nghiệm sao chép:pp<0.05

Người tốt năm 1992

Điểm chính của anh ta là những xác suất này thấp đáng ngạc nhiên (ngay cả với nó chỉ là ). Đặc biệt, với thì chỉ . ( Xác suất sau này vẫn giữ nguyên cho mọi và .)p=0.0010.78p=0.050.51/2αp=α

Quan điểm trả lời của Senn là đây là một quan sát hữu ích, tuy nhiên, không làm suy yếu giá trị theo bất kỳ cách nào và không trái với Goodman, có nghĩa là giá trị "vượt quá các bằng chứng chống lại null". Anh ấy viết:pp

Tôi cũng cho rằng cuộc biểu tình [Goodman's] của anh ta hữu ích vì hai lý do. Đầu tiên, nó là một cảnh báo cho bất kỳ ai lên kế hoạch cho một nghiên cứu tương tự với một nghiên cứu vừa hoàn thành (và có kết quả rõ rệt) rằng điều này có thể không phù hợp trong nghiên cứu thứ hai. Thứ hai, nó phục vụ như một cảnh báo rằng sự không nhất quán rõ ràng trong kết quả từ các nghiên cứu riêng lẻ có thể được dự kiến ​​là phổ biến và người ta không nên phản ứng thái quá với hiện tượng này.

Senn nhắc nhở chúng tôi rằng giá trị một phía có thể được hiểu là xác suất sau của Bayes của dưới căn hộ trước cho (không đúng trước trên toàn bộ dòng thực) [xem Marsman & Wagenmakers 2016 để thảo luận ngắn gọn của thực tế này và một số trích dẫn] .pH0:μ<0μ

Nếu vậy, thì đã thu được bất kỳ đặc biệt -giá trị trong một thí nghiệm, xác suất mà các thí nghiệm tiếp theo sẽ mang lại một thấp hơn -giá trị được ; mặt khác, các bản sao trong tương lai bằng cách nào đó có thể cung cấp bằng chứng bổ sung trước khi được tiến hành. Vì vậy, nó hoàn toàn có ý nghĩa rằng với Goodman thu được xác suất . Và thực tế, tất cả các bản phân phối sao chép được tính toán bởi Cumming và @ GeoMatt22 đều có các trung vị tại tương ứng .p p1/2p=0.050.5pobs

Tuy nhiên, chúng tôi không cần xác suất sao chép này cao hơn để tin rằng hiệu quả của việc điều trị là có thể xảy ra. Một loạt các thử nghiệm dài, % trong số đó có ý nghĩa ở mức %, sẽ là bằng chứng thuyết phục cho thấy việc điều trị có hiệu quả.0.5505

Ngẫu nhiên, bất cứ ai nhìn vào các phân phối dự đoán của giá trị , giả sử, một phép thử t có kích thước và công suất cho trước ( xem ví dụ ở đây ) sẽ không ngạc nhiên khi yêu cầu trung bình tại sẽ nhất thiết làm cho phân phối này khá rộng , với một cái đuôi béo đi về phía . Trong ánh sáng này, khoảng thời gian rộng được báo cáo bởi Cumming ngừng gây ngạc nhiên.pp=0.051

Điều họ muốn đề xuất là, người ta nên sử dụng các cỡ mẫu lớn hơn khi cố gắng sao chép một thử nghiệm; và thực tế, đây là một khuyến nghị tiêu chuẩn cho các nghiên cứu sao chép (ví dụ, Uri Simonsohn gợi ý , theo nguyên tắc thông thường, để tăng kích thước mẫu lên lần).2.5


5
(+1) May mắn thay , bạn đã không xảy ra với Goodman hoặc Senn cho đến khi bạn làm điều đó. :-)
hồng y

6

Cảm ơn mọi người đã thảo luận thú vị hơn nữa. Thay vì đưa ra nhận xét của tôi, từng điểm một, tôi sẽ đưa ra một số phản ánh chung.

Bayes. Tôi không có gì chống lại phương pháp tiếp cận Bayes. Ngay từ đầu, tôi đã dự đoán rằng một phân tích Bayes, giả sử trước đó bằng phẳng hoặc khuếch tán, sẽ đưa ra các khoảng dự đoán tương tự hoặc rất giống nhau. Có một đoạn trên p. 291 trong bài viết năm 2008 về điều đó, một phần được nhắc nhở bởi một trong những người đánh giá. Vì vậy, tôi rất vui khi thấy, ở trên, một cách làm việc thông qua phương pháp đó. Điều đó thật tuyệt, nhưng đó là một cách tiếp cận rất khác so với cách tôi đã thực hiện.

Bên cạnh đó, tôi đã chọn làm việc để vận động các khoảng tin cậy (số liệu thống kê mới: kích thước hiệu ứng, TCTD, phân tích tổng hợp) thay vì cách tiếp cận ước tính của Bayes (dựa trên các khoảng tin cậy) vì tôi không biết cách giải thích Bayesian cách tiếp cận cho người mới bắt đầu đủ tốt. Tôi chưa thấy bất kỳ cuốn sách giáo khoa Bayesian giới thiệu thực sự nào mà tôi cảm thấy tôi có thể sử dụng với người mới bắt đầu, hoặc điều đó có thể được tìm thấy và có thể truy cập được bởi một số lượng lớn các nhà nghiên cứu. Do đó, chúng ta cần phải tìm nơi khác nếu chúng ta muốn có một cơ hội tốt để cải thiện cách các nhà nghiên cứu thực hiện suy luận thống kê của họ. Có, chúng ta cần phải vượt ra ngoài pcác giá trị và chuyển từ việc ra quyết định phân đôi sang ước tính và Bayes có thể làm điều đó. Nhưng nhiều khả năng để đạt được thay đổi thực tế, imho, là một cách tiếp cận CI thông thường. Đó là lý do tại sao sách giáo khoa thống kê giới thiệu của chúng tôi, được phát hành gần đây, có cách tiếp cận thống kê mới. Xem www.thenewstatistic.com

Trở lại với những phản ánh. Trọng tâm phân tích của tôi là những gì tôi muốn nói khi chỉ biết giá trị p từ nghiên cứu đầu tiên. Các giả định tôi làm được thể hiện theo (dân số bình thường, lấy mẫu ngẫu nhiên, được gọi SD dân vì vậy chúng tôi có thể sử dụng z chứ không phải t tính toán như chúng tôi tiến hành suy luận về giá trị trung bình dân số, sao chép chính xác). Nhưng đó là tất cả những gì tôi đang giả định. Câu hỏi của tôi là 'đưa ra chỉ p từ cuộc thử nghiệm ban đầu, cách xa chúng ta có thể đi đâu?' Kết luận của tôi là chúng ta có thể tìm thấy phân phối p dự kiến ​​từ một thí nghiệm nhân rộng. Từ phân phối đó, chúng ta có thể rút ra các khoảng p , hoặc bất kỳ xác suất quan tâm nào, chẳng hạn như xác suất sao chép sẽ cho p<0,05 hoặc bất kỳ giá trị quan tâm nào khác.

Cốt lõi của đối số, và có lẽ là bước đáng suy ngẫm nhất, được minh họa trong Hình A2 trong bài viết. Nửa dưới có lẽ là không có vấn đề. Nếu chúng ta biết mu (thường đạt được bằng cách giả sử nó bằng giá trị trung bình từ nghiên cứu ban đầu) thì các lỗi ước tính, được biểu thị bằng các đoạn đường dày, có phân phối đã biết (bình thường, trung bình mu, SD như được giải thích trong chú thích).

Sau đó là bước lớn: Xem xét nửa trên của Hình 2A. Chúng tôi KHÔNG có thông tin về mu. Không có thông tin nào không phải là bất kỳ giả định ẩn về một trước. Tuy nhiên, chúng ta có thể nêu phân phối của các phân đoạn dòng dày đó: bình thường, trung bình bằng 0, SD = SQRT (2) lần so với SD ở nửa dưới. Điều đó cho chúng ta những gì chúng ta cần để tìm phân phối sao chép p .

Khoảng thời gian p kết quả là dài đáng kinh ngạc ít nhất là tôi cảm thấy ngạc nhiên khi tôi so sánh với cách các giá trị p hầu như được sử dụng phổ biến bởi các nhà nghiên cứu. Các nhà nghiên cứu thường ám ảnh về vị trí thập phân thứ hai hoặc thứ ba của giá trị p , mà không đánh giá cao rằng giá trị họ đang thấy có thể rất dễ dàng thực sự rất khác nhau. Do đó, ý kiến ​​của tôi về trang 293-4 về việc báo cáo các khoảng p để thừa nhận sự mơ hồ của p .

Dài, có, nhưng điều đó không có nghĩa là p từ thí nghiệm ban đầu không có nghĩa gì. Sau một p ban đầu rất thấp , trung bình các bản sao sẽ có xu hướng có các giá trị p nhỏ . P và sao chép ban đầu cao hơn sẽ có xu hướng có giá trị p lớn hơn một chút . Xem Bảng 1 trên trang. 292 và so sánh, ví dụ, p chu kỳ trong cột bên phải cho ban đầu p = 0,001 và 0,1-hai kết quả thông thường được coi là dặm ngoài. Hai khoảng p chắc chắn là khác nhau, nhưng có sự chồng chéo rất lớn của hai. Replication của thí nghiệm .001 có thể khá dễ dàng từ bỏ plớn hơn một bản sao của thí nghiệm .1. Mặc dù, rất có thể, nó sẽ không.

Là một phần của nghiên cứu tiến sĩ của mình, Jerry Lai, đã báo cáo ( Lai, et al., 2011 ) một số nghiên cứu hay cho thấy các nhà nghiên cứu được công bố từ một số ngành học có khoảng p chủ quan là quá ngắn. Nói cách khác, các nhà nghiên cứu có xu hướng đánh giá thấp một cách quyết liệt giá trị p của một bản sao có thể khác nhau như thế nào .

Kết luận của tôi là đơn giản là chúng ta không nên sử dụng giá trị p . Báo cáo và thảo luận về 95% CI, truyền tải tất cả thông tin trong dữ liệu cho chúng tôi biết về dân số có nghĩa là chúng tôi đang điều tra. Với CI, giá trị p không thêm gì, và có khả năng gợi ý, sai, một số mức độ chắc chắn (Đáng kể! Không đáng kể! Hiệu ứng tồn tại! Nó không!). Chắc chắn, các giá trị CIs và p dựa trên cùng một lý thuyết và chúng ta có thể chuyển đổi từ giá trị này sang giá trị khác (có rất nhiều điều trong Chương 6 của sách giáo khoa giới thiệu của chúng tôi). Nhưng CI đưa ra nhiều thông tin hơn p . Quan trọng nhất, nó làm cho mức độ không chắc chắn. Với xu hướng con người của chúng ta để nắm bắt sự chắc chắn, phạm vi của CI là rất quan trọng để xem xét.

Tôi cũng đã cố gắng làm nổi bật tính biến đổi của các giá trị p trong video 'nhảy của các giá trị p '. Google 'điệu nhảy của các giá trị p '. Có ít nhất một vài phiên bản.

Có thể tất cả khoảng thời gian tự tin của bạn là ngắn!

Geoff


3
Cảm ơn những bình luận bổ sung này, Geoff. Tôi đồng ý với một số điểm ở đây (ví dụ: "mức độ chắc chắn") và không đồng ý với một số điểm khác (ví dụ: "Với CI, giá trị p không thêm gì") nhưng một điều đặc biệt tôi cảm thấy cần phải lặp lại: Tôi không nghĩ rằng có bất kỳ cách nào để thực hiện phân tích của bạn mà không có Bayes trước. Đối số được trình bày trên Hình A2 của bạn yêu cầu căn hộ trước như một giả định ẩn. Người ta có thể đảm nhận các linh mục khác và đi đến kết quả rất khác nhau; Tôi không nghĩ rằng có bất kỳ lý lẽ thuần túy thường xuyên nào có thể hỗ trợ cho kết luận của bạn. Xem ý kiến ​​của @ whuber ở trên.
amip nói Phục hồi lại

@Geoff Cumming - Nhận xét của bạn về giáo dục thống kê và giải thích kết quả được đánh giá rất cao.
rolando2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.