Phần nào của các thử nghiệm lặp lại sẽ có kích thước hiệu ứng trong khoảng tin cậy 95% của thử nghiệm đầu tiên?


12

Chúng ta hãy nắm bắt một tình huống lý tưởng với lấy mẫu ngẫu nhiên, quần thể Gaussian, phương sai bằng nhau, không hack P, v.v.

Bước 1. Bạn chạy thử nghiệm cho biết so sánh hai phương tiện mẫu và tính khoảng tin cậy 95% cho sự khác biệt giữa hai phương tiện dân số.

Bước 2. Bạn chạy thêm nhiều thử nghiệm (hàng ngàn). Sự khác biệt giữa các phương tiện sẽ thay đổi từ thí nghiệm này sang thí nghiệm khác do lấy mẫu ngẫu nhiên.

Câu hỏi: Phần nào của sự khác biệt giữa các phương tiện từ bộ sưu tập thí nghiệm ở bước 2 sẽ nằm trong khoảng tin cậy của bước 1?

Điều đó không thể được trả lời. Tất cả phụ thuộc vào những gì đã xảy ra ở bước 1. Nếu thí nghiệm bước 1 đó rất không điển hình, câu trả lời cho câu hỏi có thể rất thấp.

Vì vậy, hãy tưởng tượng rằng cả hai bước được lặp lại nhiều lần (với bước 2 lặp lại nhiều lần nữa). Bây giờ, điều đáng lẽ là có thể, tôi nghĩ, sẽ đưa ra một kỳ vọng về phần trung bình của các thí nghiệm lặp lại, trung bình, có kích thước hiệu ứng trong khoảng tin cậy 95% của thí nghiệm đầu tiên.

Dường như câu trả lời cho những câu hỏi này cần được hiểu để đánh giá khả năng tái tạo của các nghiên cứu, một lĩnh vực rất nóng hiện nay.


Đối với mỗi thử nghiệm ban đầu (bước 1) , xác định x i là tỷ lệ của các kết quả (bước 2) tiếp theo tạo ra kết quả trong khoảng tin cậy của kết quả ban đầu. Bạn muốn tính phân phối theo kinh nghiệm của x ? ixix
Matthew Gunn

Vâng, bạn hiểu những gì tôi đang hỏi
Harvey Motulsky

@MatthewGunn hỏi bạn có muốn phân phối theo kinh nghiệm của "phần bắt giữ" cho các quan sát trong tương lai không. Bài viết của bạn đã hỏi "... tôi nghĩ là có thể, tôi nghĩ, sẽ đưa ra một kỳ vọng về phần nào của các thí nghiệm lặp lại, trung bình, có kích thước hiệu ứng trong khoảng tin cậy 95% của thử nghiệm đầu tiên" . Đây không phải là một phân phối mà là một giá trị mong đợi (trung bình).

Phân tích của Whuber là tuyệt vời, nhưng nếu bạn cần một trích dẫn thì đây là một bài viết thảo luận chính xác câu hỏi này rất chi tiết: Cumming & Maillardet, 2006, Khoảng tin cậy và Sao chép: Sự sụp đổ tiếp theo sẽ ở đâu? . Họ gọi nó là tỷ lệ phần trăm của khoảng tin cậy.
amip nói phục hồi Monica

Câu trả lời:


12

Phân tích

Bởi vì đây là một câu hỏi khái niệm, vì đơn giản chúng ta hãy xem xét tình hình trong đó một khoảng tin cậy [ ˉ x ( 1 ) + Z α /1αđược xây dựng cho một bìnhμsử dụng một mẫu ngẫu nhiênx(1)

[x¯(1)+Zα/2s(1)/n,x¯(1)+Z1α/2s(1)/n]
μx(1) kích thước và một giây ngẫu nhiên mẫu x ( 2 ) được lấy kích thước m , tất cả từ bình thường cùng ( μ , σ 2 ) phân phối. (Nếu bạn thích bạn có thể thay thế Z s bằng giá trị từ Student t phân phối của n - 1 bậc tự do; các phân tích sau đây sẽ không thay đổi.)nx(2)m(μ,σ2)Ztn1

Cơ hội mà giá trị trung bình của mẫu thứ hai nằm trong CI được xác định bởi mẫu thứ nhất là

Pr(x¯(1)+Zα/2ns(1)x¯(2)x¯(1)+Z1α/2ns(1))=Pr(Zα/2ns(1)x¯(2)x¯(1)Z1α/2ns(1)).

Do trung bình mẫu thứ nhất không phụ thuộc vào độ lệch chuẩn mẫu thứ nhất s ( 1 ) (điều này đòi hỏi tính quy tắc) và mẫu thứ hai độc lập với mẫu thứ nhất, sự khác biệt trong mẫu có nghĩa là U = ˉ x ( 2 ) - ˉ x ( 1 )x¯(1)s(1)U=x¯(2)x¯(1) độc lập với . Hơn nữa, đối với khoảng đối xứng này Z α / 2 = - Z 1 - α / 2s(1)Zα/2=Z1α/2. Do đó, viết cho biến ngẫu nhiên s ( 1 ) và bình phương cả hai bất đẳng thức, xác suất trong câu hỏi là giống nhưSs(1)

Pr(U2(Z1α/2n)2S2)=Pr(U2S2(Z1α/2n)2).

Định luật kỳ vọng ngụ ý có giá trị trung bình bằng 0 và phương sai củaU0

Var(U)=Var(x¯(2)x¯(1))=σ2(1m+1n).

là tổ hợp tuyến tính của các biến Bình thường, nên nó cũng có phân phối Bình thường. Do đó U 2σ 2 ( 1UU2lần một biếnχ2(1). Chúng ta đã biết rằngS2σ2/nlần một biếnχ2(n-1). Do đó,U2/S21/n+1/mlần một biến với mộtF(1,n-1)phân phối. σ2(1n+1m)χ2(1)S2σ2/nχ2(n1)U2/S21/n+1/mF(1,n1)Xác suất bắt buộc được đưa ra bởi phân phối F là

(1)F1,n1(Z1α/221+n/m).

Thảo luận

Một trường hợp thú vị là khi mẫu thứ hai có cùng kích thước với mẫu thứ nhất, sao cho và chỉ nα xác định xác suất. Dưới đây là các giá trị của ( 1 ) được vẽ trên αn/m=1nα(1)α cho .n=2,5,20,50

Figure

Các đồ thị tăng đến một giá trị giới hạn tại mỗi khi n tăng. Kích thước thử nghiệm truyền thống α = 0,05 được đánh dấu bằng một đường màu xám dọc. Đối với các giá trị lớn củaαnα=0.05 , cơ hội giới hạn cho α = 0,05 là khoảng 85 % .n=mα=0.0585%

Bằng cách hiểu giới hạn này, chúng tôi sẽ xem qua các chi tiết về kích thước mẫu nhỏ và hiểu rõ hơn mấu chốt của vấn đề. Khi phát triển lớn, phân phối F đạt tới χ 2n=mF . Xét về mặt phân phối bình thường tiêu chuẩn Φ , xác suất ( 1 ) sau đó xấp xỉχ2(1)Φ(1)

Φ(Z1α/22)Φ(Zα/22)=12Φ(Zα/22).

Ví dụ, với , Z α / 2 / α=0.05Φ(-1.386)0,083. Do đó, giá trị giới hạn đạt được của các đường cong tạiα=0,05khintăng sẽ là1-2(0,083)=1-0,166=0,834. Bạn có thể thấy nó đã gần như đạt được chon=50(trong đó có cơ hội là0,8383....)Zα/2/21.96/1.411.386Φ(1.386)0.083α=0.05n12(0.083)=10.166=0.834n=500.8383

Đối với nhỏ , mối quan hệ giữa α và xác suất bổ sung - rủi ro mà CI không bao gồm trung bình thứ hai - gần như hoàn toàn là một định luật lũy thừa. αα Một cách khác để diễn đạt điều này là xác suất bổ sung log gần như là một hàm tuyến tính của . Mối quan hệ hạn chế là khoảnglogα

log(2Φ(Zα/22))1.79712+0.557203log(20α)+0.00657704(log(20α))2+

Nói cách khác, với α lớn ở bất kỳ đâu gần giá trị truyền thống 0,05 , ( 1 ) sẽ gần vớin=mα0.05(1)

10.166(20α)0.557.

(Điều này nhắc nhở tôi rất nhiều về phân tích các khoảng tin cậy chồng chéo mà tôi đã đăng tại /stats//a/18259/919 . Thật vậy, sức mạnh ma thuật ở đó, , gần như là sự đối nghịch của sức mạnh ma thuật đây, 0,5571.910.557 . Tại thời điểm này, bạn sẽ có thể diễn giải lại phân tích đó về khả năng tái tạo của các thí nghiệm.)


Kết quả thực nghiệm

Những kết quả này được xác nhận với một mô phỏng đơn giản. Đoạn Rmã sau trả về tần suất bao phủ, cơ hội được tính bằng và điểm Z để đánh giá mức độ khác nhau của chúng. Z-score thường ít hơn 2 về kích thước, không phân biệt n , m , μ , σ , α (hoặc thậm chí cho dù một Z hoặc t CI được tính), cho thấy sự đúng đắn của công thức ( 1 ) .(1)2n,m,μ,σ,αZt(1)

n <- 3      # First sample size
m <- 2      # Second sample size
sigma <- 2 
mu <- -4
alpha <- 0.05
n.sim <- 1e4
#
# Compute the multiplier.
#
Z <- qnorm(alpha/2)
#Z <- qt(alpha/2, df=n-1) # Use this for a Student t C.I. instead.
#
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + Z * s.1 / sqrt(n)
u.1 <- x.1.bar - Z * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(m*n.sim, mu, sigma), nrow=m))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
# Compute the theoretical chance and compare it to the simulated frequency.
#
f <- pf(Z^2 / ((n * (1/n + 1/m))), 1, n-1)
m.covers <- mean(covers)
(c(Simulated=m.covers, Theoretical=f, Z=(m.covers - f)/sd(covers) * sqrt(length(covers))))

Bạn nói rằng sử dụng t thay vì z sẽ không tạo ra nhiều khác biệt. Tôi tin bạn nhưng chưa kiểm tra. Với kích thước mẫu nhỏ, hai giá trị tới hạn có thể khác nhau rất nhiều và phân phối t là cách chính xác để tính CI. Tại sao bạn thích sử dụng z ??
Harvey Motulsky

ZtZα as a percentage point of the appropriate Student t distribution (or of any other distribution you might care to name). Nothing changes in the analysis. If you do want to see the particular effects, uncomment the qt line in the code.
whuber

1
+1. This is a great analysis (and your answer has way too few upvotes for what it is). I just came across a paper that discusses this very question in great detail and I thought you might be interested: Cumming & Maillardet, 2006, Confidence Intervals and Replication: Where Will the Next Mean Fall?. They call it capture percentage of a confidence interval.
amoeba says Reinstate Monica

@Amoeba Thank you for the reference. I especially appreciate one general conclusion therein: "Replication is central to the scientific method, and researchers should not turn a blind eye to it just because it makes salient the inherent uncertainty of a single study."
whuber

1
Cập nhật: Nhờ các cuộc thảo luận đang diễn ra trong chủ đề chị em, bây giờ tôi tin rằng lý luận của tôi trong nhận xét trên là không chính xác. 95% các TCTD có 83% "sao chép", nhưng đây là tuyên bố về việc lấy mẫu lặp lại và không thể được hiểu là đưa ra xác suất dựa trên một khoảng tin cậy cụ thể, ít nhất là không có giả định thêm. (Có lẽ cả hai điều này và nhận xét trước đó tốt hơn nên được xóa để không nhầm lẫn độc giả hơn nữa.)
amip nói Khôi phục Monica

4

[Đã chỉnh sửa để sửa lỗi WHuber đã chỉ ra.]

I altered @Whuber's R code to use the t distribution, and plot coverage as a function of sample size. The results are below. At high sample size, the results match WHuber's of course.

enter image description here

And here is the adapted R code, run twice with alpha set to either 0.01 or 0.05.

sigma <- 2 
mu <- -4
alpha <- 0.01
n.sim <- 1e5
#
# Compute the multiplier.

for (n in c(3,5,7,10,15,20,30,50,100,250,500,1000))
{
   T <- qt(alpha/2, df=n-1)     
# Draw the first sample and compute the CI as [l.1, u.1].
#
x.1 <- matrix(rnorm(n*n.sim, mu, sigma), nrow=n)
x.1.bar <- colMeans(x.1)
s.1 <- apply(x.1, 2, sd)
l.1 <- x.1.bar + T * s.1 / sqrt(n)
u.1 <- x.1.bar - T * s.1 / sqrt(n)
#
# Draw the second sample and compute the mean as x.2.
#
x.2 <- colMeans(matrix(rnorm(n*n.sim, mu, sigma), nrow=n))
#
# Compare the second sample means to the CIs.
#
covers <- l.1 <= x.2 & x.2 <= u.1
#
Coverage=mean(covers)

print (Coverage)

}

And here is the GraphPad Prism file that made the graph.


Tôi tin rằng lô của bạn không sử dụng phân phối t , do một lỗi: bạn đặt giá trị Tbên ngoài vòng lặp! Nếu bạn muốn xem các đường cong chính xác, chỉ cần vẽ trực tiếp chúng bằng cách sử dụng kết quả lý thuyết trong câu trả lời của tôi, như được đưa ra ở cuối Rmã của tôi (thay vì dựa vào kết quả mô phỏng):curve(pf(qt(.975, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), 2, 1000, log="x", ylim=c(.8,1), col="Blue"); curve(pf(qt(.995, x-1)^2 / ((x * (1/x + 1/x))), 1, x-1), add=TRUE, col="Red")
whuber

1
@whuber. Rất tiếc! Tất nhiên bạn có quyền. Lúng túng. Tôi đã sửa nó. Như bạn đã chỉ ra phạm vi bảo hiểm cao hơn với kích thước mẫu nhỏ. (Tôi đã sửa các mô phỏng và không thử chức năng lý thuyết của bạn.)
Harvey Motulsky

I am glad you fixed it, because it is very interesting how high the coverage is for small sample sizes. We could also invert your question and use the formula to determine what value of Zα/2 to use if we wished to assure (before doing any experiments), with probability p=0.95 (say), that the mean of the second experiment would lie within the two-sided 1α confidence interval determined from the second. Doing so, as a routine practice, could be one intriguing way of addressing some criticism of NHST.
whuber

@whuber I think the next step is to look at the distribution of coverage. So far, we have the average coverage (average of many first experiments, with average of many second experiments each). But depending on what the first experiment is, in some cases the average coverage will be poor. It would be interesting to see the distribution. I'm trying to learn R well enough to find out.
Harvey Motulsky

Regarding the distributions, see the paper I linked to in the comments above.
amoeba says Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.