Tại sao việc thu thập dữ liệu cho đến khi có được kết quả quan trọng làm tăng tỷ lệ lỗi Loại I?

60

Tôi đã tự hỏi chính xác tại sao thu thập dữ liệu cho đến khi có được một kết quả quan trọng (ví dụ: ) (ví dụ, hack p) làm tăng tỷ lệ lỗi Loại I? $p \lt .05$

Tôi cũng sẽ đánh giá cao một Rcuộc biểu tình của hiện tượng này.

— Reza
nguồn

6

Bạn có thể có nghĩa là "p-hack", bởi vì "harking" đề cập đến "Giả thuyết sau khi kết quả được biết đến" và, mặc dù đó có thể được coi là một tội lỗi liên quan, nhưng đó không phải là điều bạn dường như đang hỏi về.

— whuber

2

Một lần nữa, xkcd trả lời một câu hỏi hay bằng hình ảnh. xkcd.com/882

— Jason

7

@Jason Tôi phải không đồng ý với liên kết của bạn; điều đó không nói về việc thu thập dữ liệu tích lũy. Thực tế là ngay cả việc thu thập dữ liệu tích lũy về cùng một thứ và sử dụng tất cả dữ liệu bạn phải tính toán giá trị là sai nhiều hơn so với trường hợp trong xkcd đó.

p

$p$

— JiK

1

@JiK, cuộc gọi công bằng. Tôi đã tập trung vào khía cạnh "tiếp tục cố gắng cho đến khi chúng tôi nhận được kết quả mà chúng tôi thích", nhưng bạn hoàn toàn chính xác, có nhiều vấn đề hơn trong câu hỏi.

— Jason

@whuber và user163778 đã trả lời rất giống nhau như đã thảo luận về trường hợp thực tế giống hệt như "thử nghiệm A / B (tuần tự)" trong chủ đề này: stats.stackexchange.com/questions/244646/. Ở đó, chúng tôi đã tranh luận về vấn đề Lỗi gia đình tỷ lệ và sự cần thiết để điều chỉnh giá trị p trong thử nghiệm lặp lại. Câu hỏi này trong thực tế có thể được xem như là một vấn đề thử nghiệm lặp đi lặp lại!

— tomka

87

Vấn đề là bạn đang cho bản thân quá nhiều cơ hội để vượt qua bài kiểm tra. Đây chỉ là một phiên bản ưa thích của hộp thoại này:

Tôi sẽ lật bạn để xem ai trả tiền cho bữa tối.

OK, tôi gọi người đứng đầu.

Chuột, bạn đã thắng. Tốt nhất hai trong số ba?

Để hiểu rõ hơn về điều này, hãy xem xét một mô hình đơn giản - nhưng thực tế - của quy trình tuần tự này . Giả sử bạn sẽ bắt đầu với "chạy thử" một số lượng quan sát nhất định, nhưng sẵn sàng tiếp tục thử nghiệm lâu hơn để có giá trị p nhỏ hơn . Giả thuyết là mỗi quan sát đến (độc lập) từ một phân phối chuẩn. Thay thế là độc lập với phân phối bình thường phương sai đơn vị với giá trị trung bình khác. Thống kê kiểm tra sẽ là giá trị trung bình của tất cả các quan sát , , chia cho lỗi tiêu chuẩn của chúng, . Đối với thử nghiệm hai mặt, các giá trị tới hạn là $0.05$ $X_i$ $X_i$ $n$ $\bar X$ $1/\sqrt{n}$ $0.025$ và điểm phần trăm của phân phối chuẩn, xấp xỉ. $0.975$ $Z_\alpha=\pm 1.96$

Đây là một thử nghiệm tốt - cho một thử nghiệm duy nhất với cỡ mẫu cố định . Nó có chính xác cơ hội bác bỏ giả thuyết khống, bất kể có thể là gì. $n$ $5\%$ $n$

Chúng ta hãy chuyển đổi đại số này thành một thử nghiệm tương đương dựa trên tổng của tất cả giá trị, $n$

S_{n} = X_{1} + X_{2} + \dots + X_{n} = n \bar{X} .

$S_n=X_1+X_2+\cdots+X_n = n\bar X.$

Do đó, dữ liệu là "đáng kể" khi

| Z_{α} | \leq | \frac{\bar{X}}{1 / \sqrt{n}} | = | \frac{S_{n}}{n / \sqrt{n}} | = | S_{n} | / \sqrt{n};

$\left| Z_\alpha\right| \le \left| \frac{\bar X}{1/\sqrt{n}} \right| = \left| \frac{S_n}{n/\sqrt{n}} \right| = \left| S_n \right| / \sqrt{n};$

đó là,

\begin{matrix} (1) & | Z_{α} | \sqrt{n} \leq | S_{n} | . \end{matrix}

$\left| Z_\alpha\right| \sqrt{n} \le \left| S_n \right| .\tag{1}$

Nếu chúng ta thông minh, chúng ta sẽ cắt lỗ và từ bỏ một khi phát triển rất lớn và dữ liệu vẫn chưa vào khu vực quan trọng. $n$

Điều này mô tả một đi bộ ngẫu nhiên . Công thức tương đương với việc dựng một "hàng rào" hoặc hàng rào cong, xung quanh âm mưu của bước đi ngẫu nhiên : kết quả là "đáng kể" nếu bất kỳ điểm nào của bước đi ngẫu nhiên chạm vào hàng rào. $S_n$ $(1)$ $(n, S_n)$

Đó là một đặc tính của các cuộc đi bộ ngẫu nhiên mà nếu chúng ta chờ đợi đủ lâu, rất có thể đến một lúc nào đó kết quả sẽ có ý nghĩa.

Dưới đây là 20 mô phỏng độc lập với giới hạn mẫu. Tất cả đều bắt đầu thử nghiệm với mẫu, tại đó chúng tôi kiểm tra xem mỗi điểm có nằm ngoài các rào cản đã được rút ra theo công thức . Từ thời điểm kiểm tra thống kê đầu tiên là "đáng kể", dữ liệu mô phỏng được tô màu đỏ. $n=5000$ $n=30$ $(1)$

Bạn có thể thấy những gì đang diễn ra: bước đi ngẫu nhiên quất lên xuống ngày càng nhiều khi tăng. Các rào cản đang lan rộng với tốc độ tương tự - nhưng không đủ nhanh để luôn luôn tránh đi bộ ngẫu nhiên. $n$

Trong 20% các mô phỏng này, một sự khác biệt "đáng kể" đã được tìm thấy - thường là khá sớm - mặc dù trong mỗi một trong số chúng, giả thuyết null là hoàn toàn chính xác! Chạy nhiều mô phỏng loại này chỉ ra rằng kích thước thử nghiệm thực sự gần bằng thay vì giá trị dự định là : nghĩa là bạn sẵn sàng tiếp tục tìm kiếm "mức ý nghĩa" lên đến cỡ mẫu mang lại cho bạn cơ hội từ chối null ngay cả khi null là đúng. $25\%$ $\alpha=5\%$ $5000$ $25\%$

Lưu ý rằng trong tất cả bốn trường hợp "đáng kể", khi thử nghiệm tiếp tục, dữ liệu đã ngừng trông có ý nghĩa ở một số điểm. Trong cuộc sống thực, một người thí nghiệm dừng lại sớm đang mất cơ hội quan sát những "sự đảo ngược" như vậy. Sự chọn lọc này thông qua việc dừng tùy chọn làm sai lệch kết quả.

Trong các bài kiểm tra tuần tự trung thực đến tốt, các rào cản là các dòng. Chúng lan truyền nhanh hơn các rào cản cong được hiển thị ở đây.

library(data.table)
library(ggplot2)

alpha <- 0.05   # Test size
n.sim <- 20     # Number of simulated experiments
n.buffer <- 5e3 # Maximum experiment length
i.min <- 30     # Initial number of observations
#
# Generate data.
#
set.seed(17)
X <- data.table(
  n = rep(0:n.buffer, n.sim),
  Iteration = rep(1:n.sim, each=n.buffer+1),
  X = rnorm((1+n.buffer)*n.sim)
)
#
# Perform the testing.
#
Z.alpha <- -qnorm(alpha/2)
X[, Z := Z.alpha * sqrt(n)]
X[, S := c(0, cumsum(X))[-(n.buffer+1)], by=Iteration]
X[, Trigger := abs(S) >= Z & n >= i.min]
X[, Significant := cumsum(Trigger) > 0, by=Iteration]
#
# Plot the results.
#
ggplot(X, aes(n, S, group=Iteration)) +
  geom_path(aes(n,Z)) + geom_path(aes(n,-Z)) +
  geom_point(aes(color=!Significant), size=1/2) +
  facet_wrap(~ Iteration)

— whuber
nguồn

12

+1. Có bất kỳ bước đi ngẫu nhiên nào cuối cùng vượt qua các rào cản với xác suất 1 không? Tôi biết rằng khoảng cách dự kiến sau bước là và tôi đã tra cứu rằng hằng số tỷ lệ là , nhỏ hơn 1,96. Nhưng tôi không chắc chắn những gì để làm cho nó.

n

$n$

O (\sqrt{n})

$\mathcal O(\sqrt{n})$

\sqrt{2 / π}

$\sqrt{2/\pi}$

— amip nói rằng Phục hồi Monica

10

@amoeba Đó là một câu hỏi hay, mà tôi đã cố gắng hết sức để né tránh :-). Nếu tôi có thể tính toán câu trả lời một cách nhanh chóng (hoặc biết nó bằng tay) thì tôi đã đăng nó. Thật không may, tôi quá bận để giải quyết nó ngay bây giờ. Mô phỏng dài nhất tôi đã thực hiện là 1.000 lần lặp, nhìn ra tới với . Tỷ lệ kết quả "đáng kể" dường như ổn định gần .

n = 5, 000, 000

$n=5,000,000$

α = 0.05

$\alpha=0.05$

1 / 4

$1/4$

— whuber

4

Câu hỏi về xác suất đạt ranh giới rất thú vị. Tôi tưởng tượng rằng lý thuyết Einsteins về chuyển động Brown, liên quan đến phương trình khuếch tán, có thể là một góc thú vị. Chúng tôi có một hàm phân phối trải rộng với tỷ lệ và "mất hạt" bằng một nửa giá trị của hàm phân phối tại ranh giới này (một nửa di chuyển từ 0, qua biên giới, nửa còn lại quay lại). Khi chức năng phân phối này lan rộng ra và ngày càng mỏng hơn, "mất mát" sẽ giảm đi. Tôi tưởng tượng điều này một cách hiệu quả sẽ tạo ra một giới hạn, tức là 1/4 này.

α = 0.05

$\alpha=0.05$

\sim \sqrt{n}

$\sim \sqrt{n}$

— Sextus Empiricus

6

Lý do trực quan tại sao bạn sẽ nhận được tại một số điểm gần như chắc chắn: Đặt và . Giá trị sau các thử nghiệm đầu tiên khá độc lập với giá trị sau các thử nghiệm đầu tiên . Vì vậy, bạn sẽ có vô số giá trị "gần như" độc lập , do đó, một trong số chúng được đảm bảo . Tất nhiên, sự hội tụ thực sự nhanh hơn nhiều so với lập luận này nói. (Và nếu bạn không thích , bạn có thể thử hoặc ...)

p < 0.05

$p<0.05$

n_{1} = 10

$n_1=10$

n_{k + 1} = 10^{n_{k}}

$n_{k+1}=10^{n_k}$

p

$p$

n_{k + 1}

$n_{k+1}$

p

$p$

n_{k}

$n_k$

p

$p$

< 0.05

$<0.05$

10^{n_{k}}

$10^{n_k}$

A (n_{k})

$A(n_k)$

B B (n_{k})

$\mathrm{BB}(n_k)$

— JiK

10

@CL. Tôi đã lường trước sự phản đối của bạn vài năm trước: 17 là hạt giống công cộng của tôi. Trong thực tế, vào đầu năm (lâu hơn nữa) thử nghiệm tôi đã liên tục nhận được nhiều hơn giá có tầm quan trọng lớn hơn đáng kể so với 20%. Tôi đặt hạt giống ở tuổi 17 để tạo ra hình ảnh cuối cùng và thất vọng vì hiệu ứng này không quá ấn tượng. C'est la vie. Một bài đăng liên quan (minh họa quan điểm của bạn) là tại stats.stackexchange.com/a/38067/919 .

— whuber

18

Những người chưa quen với thử nghiệm giả thuyết có xu hướng nghĩ rằng một khi giá trị ap giảm xuống dưới 0,05, việc thêm nhiều người tham gia sẽ chỉ làm giảm giá trị p hơn nữa. Nhưng điều này không đúng. Theo giả thuyết null, giá trị ap được phân phối đồng đều giữa 0 và 1 và có thể nảy xung quanh khá nhiều trong phạm vi đó.

Tôi đã mô phỏng một số dữ liệu trong R (kỹ năng R của tôi khá cơ bản). Trong mô phỏng này, tôi thu thập 5 điểm dữ liệu - mỗi điểm có thành viên nhóm được chọn ngẫu nhiên (0 hoặc 1) và mỗi điểm có số đo kết quả được chọn ngẫu nhiên ~ N (0,1). Bắt đầu từ người tham gia 6, tôi tiến hành kiểm tra t ở mỗi lần lặp.

for (i in 6:150) {
  df[i,1] = round(runif(1))
  df[i,2] = rnorm(1)
  p = t.test(df[ , 2] ~ df[ , 1], data = df)$p.value
  df[i,3] = p
}

Các giá trị p nằm trong hình này. Lưu ý rằng tôi tìm thấy kết quả quan trọng khi cỡ mẫu khoảng 70-75. Nếu tôi dừng lại ở đó, tôi sẽ tin rằng những phát hiện của tôi rất có ý nghĩa vì tôi đã bỏ lỡ thực tế là giá trị p của tôi đã tăng trở lại với một mẫu lớn hơn (điều này thực sự đã xảy ra với tôi một lần với dữ liệu thực). Vì tôi biết cả hai quần thể đều có giá trị trung bình bằng 0, nên đây phải là số dương. Đây là vấn đề với việc thêm dữ liệu cho đến p <0,05. Nếu bạn thêm tiến hành kiểm tra đủ, p cuối cùng sẽ vượt qua ngưỡng 0,05 và bạn có thể tìm thấy một hiệu ứng đáng kể là bất kỳ tập dữ liệu nào.

— TPM
nguồn

1

Cảm ơn nhưng Rmã của bạn hoàn toàn không chạy.

— Reza

3

@Reza bạn cần tạo dftrước (tốt nhất là ở kích thước cuối cùng của nó). Vì mã bắt đầu viết ở hàng 6, nên hàm ý (phù hợp với văn bản của câu trả lời) là df đã tồn tại với 5 hàng đã được điền vào. Có lẽ một cái gì đó như thế này đã được dự định:

n150<-vector("numeric",150);  df<-data.frame(gp=n150,val=n150,pval=n150);  init<-1:5; df[init,1]<-c(0,1,0,1,0); df[init,2]<-rnorm(5)

(sau đó chạy mã ở trên) có lẽ: plot(df$pv[6:150])

— Glen_b

@ user263778 rất tập trung câu trả lời hữu ích và thích hợp. Nhưng có quá nhiều nhầm lẫn về việc diễn giải giá trị p được gọi là - vẻ đẹp nhảy múa.

— Subhash C. Davar

@ user163778 - bạn cũng nên bao gồm mã để khởi tạo mọi thứ

— Dason

17

Câu trả lời này chỉ liên quan đến xác suất cuối cùng nhận được kết quả "đáng kể" và phân phối thời gian cho sự kiện này theo mô hình của @ whuber's.

Như trong mô hình của @whuber, hãy để biểu thị giá trị của thống kê kiểm tra sau khi các quan sát được thu thập và giả sử rằng các quan sát là iid chuẩn . Sau đó sao cho hoạt động như một chuyển động Brownian tiêu chuẩn liên tục, nếu chúng ta bỏ qua khoảnh khắc thực tế là chúng ta có một quá trình thời gian rời rạc (âm mưu bên trái). $S(t)=X_1 + X_2 + \dots + X_t$ $t$ $X_1,X_2,\dots$

\begin{matrix} (1) & S (t + h) | S (t) = s_{0} \sim N (s_{0}, h), \end{matrix}

$S(t+h)|S(t)=s_0 \sim N(s_0, h), \tag{1}$

S (t)

$S(t)$

Gọi là thời gian vượt qua đầu tiên của qua các rào cản phụ thuộc thời gian (số lượng quan sát cần thiết trước khi thử nghiệm chuyển sang đáng kể). $T$ $S(t)$ $\pm z_{\alpha/2}\sqrt{t}$

Hãy xem xét quá trình biến đổi thu được bằng cách chia tỷ lệ theo độ lệch chuẩn của nó tại thời điểm và bằng cách để thang đo thời gian mới sao cho Theo sau (1) và (2) rằng thường được phân phối với và $Y(\tau)$ $S(t)$ $t$ $\tau=\ln t$

\begin{matrix} (2) & Y (τ) = \frac{S (t (τ))}{\sqrt{t (τ)}} = e^{- τ / 2} S (e^{τ}) . \end{matrix}

$Y(\tau)=\frac{S(t(\tau))}{\sqrt{t(\tau)}}=e^{-\tau/2}S(e^\tau). \tag{2}$

Y (τ + δ)

$Y(\tau+\delta)$

\begin{aligned} E (Y (τ + δ) | Y (τ) = y_{0}) & = E (e^{- (τ + δ) / 2} S (e^{τ + δ}) | S (e^{τ}) = y_{0} e^{τ / 2}) \\ (3) & = y_{0} e^{- δ / 2} \end{aligned}

$\begin{align} E(Y(\tau+\delta)|Y(\tau)=y_0) &=E(e^{-(\tau+\delta)/2}S(e^{\tau+\delta})|S(e^\tau)=y_0e^{\tau/2}) \\&=y_0e^{-\delta/2} \tag{3} \end{align}$

\begin{aligned} Var (Y (τ + δ) | Y (τ) = y_{0}) & = Var (e^{(τ + δ) / 2} S (e^{τ + δ}) | S (e^{τ}) = y_{0} e^{τ / 2}) \\ (4) & = 1 - e^{- δ}, \end{aligned}

$\begin{align} \operatorname{Var}(Y(\tau+\delta)|Y(\tau)=y_0) &=\operatorname{Var}(e^{(\tau+\delta)/2}S(e^{\tau+\delta})|S(e^\tau)=y_0e^{\tau/2}) \\&=1-e^{-\delta}, \tag{4} \end{align}$ nghĩa là, là một quá trình Ornstein-Uhlenbeck (OU) có nghĩa là 0 với phương sai đứng yên là 1 và thời gian trả về 2 (âm mưu bên dưới).

Y (τ)

$Y(\tau)$

Đối với mô hình được chuyển đổi, các rào cản trở thành hằng số độc lập với thời gian bằng . Sau đó, người ta đã biết ( Nobile và cộng sự 1985 ; Ricciardi & Sato, 1988 ) rằng thời gian trôi qua đầu tiên của quy trình OU qua các rào cản này được phân phối theo cấp số nhân với một số tham số (tùy thuộc vào các rào cản tại ) (ước tính cho bên dưới). Ngoài ra còn có một khối lượng điểm phụ có kích thước in . "Từ chối" của $\pm z_{\alpha/2}$ $\mathcal{T}$ $Y(\tau)$ $\lambda$ $\pm z_{\alpha/2}$ $\hat\lambda=0.125$ $\alpha=0.05$ $\alpha$ $\tau=0$ $H_0$ cuối cùng xảy ra với xác suất 1. Do đó, (số lượng quan sát cần thu thập trước khi nhận được kết quả "có ý nghĩa") theo sau phân phối theo cấp số nhân log với giá trị dự kiến Do đó, có một kỳ vọng hữu hạn nếu (đủ mức ý nghĩa lớn ). $T=e^\mathcal{T}$

\begin{matrix} (5) & E T \approx 1 + (1 - α) \int_{0}^{\infty} e^{τ} λ e^{- λ τ} d τ . \end{matrix}

$ET\approx 1+(1-\alpha)\int_0^\infty e^\tau \lambda e^{-\lambda \tau}d\tau.\tag{5}$

T

$T$

λ > 1

$\lambda>1$

α

$\alpha$

Ở trên bỏ qua thực tế là cho mô hình thực là rời rạc và quy trình thực là rời rạc - thay vì liên tục - thời gian. Do đó, mô hình trên đánh giá quá cao khả năng rào cản đã bị vượt qua (và đánh giá thấp ) vì đường dẫn mẫu thời gian liên tục có thể chỉ vượt qua rào cản tạm thời ở giữa hai điểm thời gian rời rạc liền kề và . Nhưng những sự kiện như vậy nên có xác suất không đáng kể cho lớn . $T$ $ET$ $t$ $t+1$ $t$

Hình dưới đây cho thấy ước tính Kaplan-Meier của trên thang đo log-log cùng với đường cong sống sót cho xấp xỉ thời gian liên tục theo hàm mũ (đường màu đỏ). $P(T>t)$

Mã R:

# Fig 1
par(mfrow=c(1,2),mar=c(4,4,.5,.5))
set.seed(16)
n <- 20
npoints <- n*100 + 1
t <- seq(1,n,len=npoints)
subset <- 1:n*100-99
deltat <- c(1,diff(t))
z <- qnorm(.975)
s <- cumsum(rnorm(npoints,sd=sqrt(deltat)))
plot(t,s,type="l",ylim=c(-1,1)*z*sqrt(n),ylab="S(t)",col="grey")
points(t[subset],s[subset],pch="+")
curve(sqrt(t)*z,xname="t",add=TRUE)
curve(-sqrt(t)*z,xname="t",add=TRUE)
tau <- log(t)
y <- s/sqrt(t)
plot(tau,y,type="l",ylim=c(-2.5,2.5),col="grey",xlab=expression(tau),ylab=expression(Y(tau)))
points(tau[subset],y[subset],pch="+")
abline(h=c(-z,z))

# Fig 2
nmax <- 1e+3
nsim <- 1e+5
alpha <- .05
t <- numeric(nsim)
n <- 1:nmax
for (i in 1:nsim) {
  s <- cumsum(rnorm(nmax))
  t[i] <- which(abs(s) > qnorm(1-alpha/2)*sqrt(n))[1]
}
delta <- ifelse(is.na(t),0,1)
t[delta==0] <- nmax + 1
library(survival)
par(mfrow=c(1,1),mar=c(4,4,.5,.5))
plot(survfit(Surv(t,delta)~1),log="xy",xlab="t",ylab="P(T>t)",conf.int=FALSE)
curve((1-alpha)*exp(-.125*(log(x))),add=TRUE,col="red",from=1,to=nmax)

— Tuleo
nguồn

Cảm ơn! Bạn có bất kỳ tài liệu tham khảo (tiêu chuẩn) nào cho những kết quả này không? Chẳng hạn, tại sao Y xử lý một Ornstein-Uhlenbeck và chúng ta có thể tìm thấy kết quả thời gian trôi qua ở đâu?

— Grassie

1

Tôi chưa thấy sự biến đổi này ở bất cứ nơi nào khác nhưng tôi tin rằng (3) và (4) dễ dàng theo sau (1) và (2) và tính quy phạm hoàn toàn đặc trưng cho quá trình OU. Học giả Google trả về rất nhiều kết quả về số mũ gần đúng của các phân phối thời gian qua đầu tiên cho quy trình OU. Nhưng tôi tin rằng trong trường hợp này (trong khoảng xấp xỉ thời gian liên tục) được phân phối chính xác theo cấp số nhân (ngoại trừ khối lượng điểm phụ trong ) vì đến từ phân phối cố định của quá trình .

T

$\mathcal{T}$

τ = 0

$\tau=0$

Y (0)

$Y(0)$

— Jarle Tufto

@Grassie Cũng xem math.stackexchange.com/questions/1900304/NH

— Jarle Tufto

@Grassie Thật ra, lập luận của tôi dựa trên sự thiếu trí nhớ là thiếu sót. Thời gian của các chuyến du ngoạn ra khỏi ranh giới không được phân phối theo cấp số nhân. Do đó, dựa trên cùng một đối số như trong stats.stackexchange.com/questions/298828/ , mặc dù đến từ phân phối cố định, thời gian qua đầu tiên không được phân phối chính xác theo cấp số nhân.

Y (0)

$Y(0)$

— Jarle Tufto

5

Cần phải nói rằng các cuộc thảo luận ở trên là dành cho một thế giới quan thường xuyên, trong đó tính đa dạng xuất phát từ cơ hội bạn đưa dữ liệu trở nên cực đoan hơn, không phải từ cơ hội bạn tạo ra hiệu ứng tồn tại. Nguyên nhân cốt lõi của vấn đề là các giá trị p và lỗi loại I sử dụng điều hòa luồng thông tin ngược thời gian ngược, điều này quan trọng "làm thế nào bạn có được ở đây" và điều gì có thể xảy ra thay thế. Mặt khác, mô hình Bayes mã hóa sự hoài nghi về một hiệu ứng trên chính tham số, chứ không phải trên dữ liệu. Điều đó làm cho mỗi xác suất sau được giải thích giống nhau cho dù bạn có tính xác suất sau khác của hiệu ứng 5 phút trước hay không. Thông tin chi tiết và mô phỏng đơn giản có thể được tìm thấy tại http://www.fharrell.com/2017/10/continupt-learning-from-data-no.

— Frank Mitchell
nguồn

1

Hãy tưởng tượng một phòng thí nghiệm do Tiến sĩ B, một người Bayes sùng đạo. Phòng thí nghiệm đang nghiên cứu về mồi xã hội và đã tạo ra một dòng giấy ổn định cho thấy các hiệu ứng khác nhau của mồi, mỗi lần được hỗ trợ bởi yếu tố Bayes BF> 10. Nếu họ không bao giờ làm thử nghiệm tuần tự, nó có vẻ khá thuyết phục. Nhưng hãy nói rằng tôi học được rằng họ luôn thực hiện kiểm tra tuần tự và tiếp tục nhận các môn học mới cho đến khi họ đạt được BF> 10 theo hướng có hiệu lực mồi . Sau đó, rõ ràng toàn bộ công việc này là vô giá trị. Việc họ thực hiện kiểm tra tuần tự + lựa chọn tạo ra sự khác biệt rất lớn, bất kể nó dựa trên giá trị p của BF.

— amip nói phục hồi Monica

1

Tôi không sử dụng các yếu tố của Bayes. Nhưng nếu họ đã sử dụng xác suất sau và đã thực hiện từng thử nghiệm cho đến khi xác suất hậu quả của hiệu ứng dương tính , sẽ hoàn toàn không có gì sai với các xác suất này. Nhìn vào trích dẫn ở đầu bài viết trên blog của tôi - xem liên kết trong câu trả lời của tôi ở trên. Mức độ tin tưởng về hiệu ứng mồi đến từ dữ liệu và niềm tin trước đó. Nếu bạn (như tôi) rất nghi ngờ về các hiệu ứng mồi như vậy, tốt hơn hết bạn nên sử dụng một cách khá hoài nghi trước khi tính toán các xác suất sau. Đó là nó.

\geq 0.95

$\geq 0.95$

— Frank Harrell

1

Tôi đọc bài đăng trên blog của bạn, nhận thấy trích dẫn và xem một bài báo tương tự ( Dừng tùy chọn: Không có vấn đề gì với Bayes ) mà ai đó liên kết trong các bình luận cho câu trả lời khác. Tôi vẫn không hiểu. Nếu "null" (hiệu ứng mồi không có) là đúng, thì nếu Dr B sẵn sàng lấy mẫu đủ lâu, anh ta sẽ có thể nhận được xác suất sau> 0,95 mỗi lần anh ta chạy thử nghiệm (chính xác như Dr F sẽ có thể nhận p <0,05 mỗi lần). Nếu đây là "hoàn toàn không có gì sai" thì tôi không biết nó là gì.

— amip nói rằng Phục hồi Monica

2

Vâng, tôi tranh chấp "điểm lớn hơn" này. Tôi không nghĩ điều này là đúng. Khi tôi tiếp tục lặp lại, dưới giá trị 0 của hiệu ứng 0 và với bất kỳ giá trị nào được đưa ra trước (giả sử một số liên tục trước đó tập trung ở mức 0), việc lấy mẫu lặp lại sẽ luôn sớm hơn hoặc muộn hơn> 0,98 xác suất sau tập trung trên 0. Một người đang lấy mẫu cho đến khi điều này xảy ra (tức là áp dụng quy tắc dừng này), sẽ bị sai mỗi lần . Làm thế nào bạn có thể nói rằng người này sẽ sai chỉ 0,02 thời gian? Tôi không hiểu Trong những trường hợp đặc biệt này, không có anh sẽ không, anh sẽ luôn luôn sai.

— amip nói phục hồi Monica

2

Tôi không nghĩ rằng tôi là. Quan điểm lớn hơn của tôi là không công bằng và không nhất quán khi đồng thời đổ lỗi cho các thủ tục thường xuyên phải chịu đựng thử nghiệm tuần tự và bảo vệ các thủ tục Bayes không bị ảnh hưởng bởi thử nghiệm tuần tự. Quan điểm của tôi (đó là một thực tế toán học) là cả hai đều bị ảnh hưởng theo cùng một cách chính xác, có nghĩa là thử nghiệm tuần tự có thể làm tăng lỗi loại I của Bayes đến 100%. Tất nhiên, nếu bạn nói rằng, theo nguyên tắc, không quan tâm đến tỷ lệ lỗi loại I, thì điều đó không liên quan. Nhưng sau đó, các thủ tục thường xuyên cũng không nên bị đổ lỗi cho điều đó.

— amip nói rằng Phục hồi lại

3

Chúng tôi xem xét một nhà nghiên cứu thu thập một mẫu có kích thước , , để kiểm tra một số giả thuyết . Ông từ chối nếu một phù hợp kiểm tra thống kê vượt level- nó quan trọng giá trị . Nếu không, anh ta thu thập một mẫu khác có kích thước , và từ chối nếu thử nghiệm từ chối cho mẫu kết hợp . Nếu anh ta vẫn không bị từ chối, anh ta tiến hành theo cách này, tổng cộng lên tới lần. $n$ $x_1$ $\theta=\theta_0$ $t$ $\alpha$ $c$ $n$ $x_2$ $(x_1,x_2)$ $K$

Vấn đề này dường như đã được giải quyết bởi P. Armitage, CK McPherson và BC Rowe (1969), Tạp chí của Hiệp hội Thống kê Hoàng gia. Sê-ri A (132), 2, 235-244: "Các thử nghiệm quan trọng lặp lại trên dữ liệu tích lũy" .

Quan điểm của Bayes về vấn đề này, cũng được thảo luận ở đây, nhân tiện, được thảo luận trong Berger và Wolpert (1988), "Nguyên tắc khả năng sống" , Phần 4.2.

Đây là một bản sao một phần của Armitage et al của kết quả (mã dưới đây), trong đó cho thấy cách mức ý nghĩa thổi phồng khi , cũng như các yếu tố chỉnh thể khôi phục level- giá trị quan trọng. Lưu ý tìm kiếm lưới mất một lúc để chạy --- việc triển khai có thể không hiệu quả. $K>1$ $\alpha$

Kích thước của quy tắc từ chối tiêu chuẩn là một hàm của số lần thử $K$

Kích thước như một hàm tăng giá trị tới hạn cho khác nhau $K$

Điều chỉnh các giá trị tới hạn để khôi phục 5% kiểm tra dưới dạng hàm của $K$

reps <- 50000

K <- c(1:5, seq(10,50,5), seq(60,100,10)) # the number of attempts a researcher gives herself
alpha <- 0.05
cv <- qnorm(1-alpha/2)

grid.scale.cv <- cv*seq(1,1.5,by=.01) # scaled critical values over which we check rejection rates
max.g <- length(grid.scale.cv)
results <- matrix(NA, nrow = length(K), ncol=max.g)

for (kk in 1:length(K)){
  g <- 1
  dev <- 0
  K.act <- K[kk]
  while (dev > -0.01 & g <= max.g){
    rej <- rep(NA,reps)
    for (i in 1:reps){
      k <- 1
      accept <- 1
      x <- rnorm(K.act)
      while(k <= K.act & accept==1){
        # each of our test statistics for "samples" of size n are N(0,1) under H0, so just scaling their sum by sqrt(k) gives another N(0,1) test statistic
        rej[i] <- abs(1/sqrt(k)*sum(x[1:k])) > grid.scale.cv[g] 
        accept <- accept - rej[i]
        k <- k+1
      }
    }
    rej.rate <- mean(rej)
    dev <- rej.rate-alpha
    results[kk,g] <- rej.rate
    g <- g+1
  }
}
plot(K,results[,1], type="l")
matplot(grid.scale.cv,t(results), type="l")
abline(h=0.05)

cv.a <- data.frame(K,adjusted.cv=grid.scale.cv[apply(abs(results-alpha),1,which.min)])
plot(K,cv.a$adjusted.cv, type="l")

— Christoph Hanck
nguồn