Nhầm lẫn về khoảng tin cậy

Tôi bối rối về khái niệm khoảng tin cậy. Cụ thể, giả sử có biến Gaussian với biết và tôi quan tâm đến giới hạn dưới của giá trị trung bình với độ tin cậy . $X \sim N(\mu, \sigma)$ $\sigma$ $\mu_L$ $95\%$

Tôi sẽ thực hiện thử nghiệm trong lần và quan sát , , , , . $5$ $X_1$ $X_2$ $X_3$ $X_4$ $X_5$

Tùy chọn 1: Tôi xử lý từng mẫu riêng biệt và tôi có thể tính toán cho mỗi . Và sau đó tôi đoán có một số cách (tôi không biết làm thế nào) để tính giới hạn dưới thực tế từ 5 'này. $\mu_L = X_i - \sigma z$ $X_i$ $\mu_L$

Tùy chọn 2: Mặt khác, nếu tôi lấy , tôi có thể tính toán . (giả sử là bình thường, chúng ta cũng có thể sử dụng t-stat.) $T = (X_1+X_2+X_3+X_4+X_5)/5$ $\mu_L = T - \sigma/\sqrt{5}z$ $T$

Có phương pháp nào khác ngoài phương án 2 để tính giới hạn dưới dựa trên mẫu không? Và đối với phương án 1, có cách nào để tính giới hạn dưới dựa trên 5 giới hạn dưới được tính không? $5$

confidence-interval

— bắp chân
nguồn

Đây là một câu hỏi tuyệt vời vì nó khám phá khả năng của các thủ tục thay thế và yêu cầu chúng tôi suy nghĩ về lý do tại sao và làm thế nào một thủ tục có thể vượt trội hơn một thủ tục khác.

Câu trả lời ngắn gọn là có vô số cách chúng ta có thể nghĩ ra một quy trình để đạt giới hạn tin cậy thấp hơn cho giá trị trung bình, nhưng một số trong số này tốt hơn và một số xấu hơn (theo nghĩa có ý nghĩa và được xác định rõ). Tùy chọn 2 là một quy trình tuyệt vời, bởi vì một người sử dụng nó sẽ cần thu thập ít hơn một nửa dữ liệu so với một người sử dụng Tùy chọn 1 để có được kết quả có chất lượng tương đương. Một nửa số lượng dữ liệu thường có nghĩa là một nửa ngân sách và một nửa thời gian, vì vậy chúng tôi đang nói về một sự khác biệt quan trọng và kinh tế. Điều này cung cấp một minh chứng cụ thể về giá trị của lý thuyết thống kê.

Thay vì kiểm tra lại lý thuyết, trong đó có nhiều tài khoản sách giáo khoa xuất sắc, hãy nhanh chóng khám phá ba quy trình giới hạn độ tin cậy (LCL) thấp hơn cho bình thường độc lập của độ lệch chuẩn đã biết. Tôi đã chọn ba cái tự nhiên và đầy hứa hẹn được đề xuất bởi câu hỏi. Mỗi người trong số họ được xác định bởi mức độ tin cậy mong muốn : $n$ $1-\alpha$

Tùy chọn 1a, thủ tục "tối thiểu" . Giới hạn tin cậy thấp hơn được đặt bằng . Giá trị của số được xác định sao cho khả năng sẽ vượt quá ý nghĩa thực sự chỉ là ; nghĩa là, . $t_{\min} = \min(X_1, X_2, \ldots, X_n) - k^{\min}_{\alpha, n, \sigma} \sigma$ $k^{\min}_{\alpha, n, \sigma}$ $t_{\min}$ $\mu$ $\alpha$ $\Pr(t_{\min} \gt \mu) = \alpha$
Tùy chọn 1b, thủ tục "tối đa" . Giới hạn tin cậy thấp hơn được đặt bằng . Giá trị của số được xác định sao cho khả năng sẽ vượt quá trung bình thực chỉ là ; nghĩa là, . $t_{\max} = \max(X_1, X_2, \ldots, X_n) - k^{\max}_{\alpha, n, \sigma} \sigma$ $k^{\max}_{\alpha, n, \sigma}$ $t_{\max}$ $\mu$ $\alpha$ $\Pr(t_{\max} \gt \mu) = \alpha$
Tùy chọn 2, thủ tục "trung bình" . Giới hạn tin cậy thấp hơn được đặt bằng . Giá trị của số được xác định sao cho khả năng sẽ vượt quá giá trị trung bình đúng chỉ là ; nghĩa là, . $t_\text{mean} = \text{mean}(X_1, X_2, \ldots, X_n) - k^\text{mean}_{\alpha, n, \sigma} \sigma$ $k^\text{mean}_{\alpha, n, \sigma}$ $t_\text{mean}$ $\mu$ $\alpha$ $\Pr(t_\text{mean} \gt \mu) = \alpha$

Như đã biết, trong đó ; là hàm xác suất tích lũy của phân phối chuẩn. Đây là công thức được trích dẫn trong câu hỏi. Một tốc ký toán học là $k^\text{mean}_{\alpha, n, \sigma} = z_\alpha/\sqrt{n}$ $\Phi(z_\alpha) = 1-\alpha$ $\Phi$

$k^\text{mean}_{\alpha, n, \sigma} = \Phi^{-1}(1-\alpha)/\sqrt{n}.$

Các công thức cho các thủ tục tối thiểu và tối thiểu ít được biết đến nhưng dễ xác định:

$k^\text{min}_{\alpha,n,\sigma} = \Phi^{-1}(1-\alpha^{1/n})$ .
$k^\text{max}_{\alpha, n, \sigma} = \Phi^{-1}((1-\alpha)^{1/n})$ .

Bằng phương pháp mô phỏng, chúng ta có thể thấy rằng cả ba công thức đều hoạt động. Đoạn Rmã sau tiến hành n.trialsthời gian thử nghiệm riêng biệt và báo cáo cả ba LCL cho mỗi thử nghiệm:

simulate <- function(n.trials=100, alpha=.05, n=5) {
  z.min <- qnorm(1-alpha^(1/n))
  z.mean <- qnorm(1-alpha) / sqrt(n)
  z.max <- qnorm((1-alpha)^(1/n))
  f <- function() {
    x <- rnorm(n); 
    c(max=max(x) - z.max, min=min(x) - z.min, mean=mean(x) - z.mean)
  }    
  replicate(n.trials, f())
}

(Mã không bận tâm để làm việc với các phân phối bình thường chung: vì chúng tôi có thể tự do chọn đơn vị đo và số 0 của thang đo, nên đủ để nghiên cứu trường hợp , Đó là lý do tại sao không có công thức nào cho các thực sự phụ thuộc vào .) $\mu=0$ $\sigma=1$ $k^*_{\alpha,n,\sigma}$ $\sigma$

10.000 thử nghiệm sẽ cung cấp đủ độ chính xác. Hãy chạy mô phỏng và tính tần suất mà mỗi quy trình không tạo ra giới hạn tin cậy nhỏ hơn giá trị trung bình thực:

set.seed(17)
sim <- simulate(10000, alpha=.05, n=5)
apply(sim > 0, 1, mean)

Đầu ra là

   max    min   mean 
0.0515 0.0527 0.0520

Các tần số này đủ gần với giá trị quy định của để chúng tôi có thể hài lòng cả ba quy trình hoạt động như quảng cáo: mỗi quy trình tạo ra giới hạn tin cậy thấp hơn 95% cho giá trị trung bình. $\alpha=.05$

(Nếu bạn lo ngại rằng các tần số khác nhau đôi chút từ , bạn có thể chạy thử nghiệm hơn Với một triệu thử nghiệm, họ đến gần gũi hơn với. : .) $.05$ $.05$ $(0.050547, 0.049877, 0.050274)$

Tuy nhiên, một điều chúng tôi muốn về bất kỳ thủ tục LCL nào là nó không chỉ nên chính xác theo tỷ lệ thời gian dự định mà còn có xu hướng gần đúng. Ví dụ, hãy tưởng tượng một nhà thống kê (giả thuyết), nhờ khả năng cảm thụ tôn giáo sâu sắc, có thể tham khảo nhà tiên tri Delphic (của Apollo) thay vì thu thập dữ liệu và thực hiện tính toán LCL. Khi cô ấy yêu cầu vị thần cho LCL 95%, vị thần sẽ chỉ nói lên ý nghĩa thực sự và nói điều đó với cô ấy - sau tất cả, anh ấy hoàn hảo. Nhưng, bởi vì thần không muốn chia sẻ đầy đủ khả năng của mình với loài người (mà vẫn phải có thể nói được), 5% thời gian anh ta sẽ đưa ra một LCL là $X_1, X_2, \ldots, X_n$ $100\sigma$ quá cao. Thủ tục Delphic này cũng là 95% LCL - nhưng nó sẽ là một điều đáng sợ để sử dụng trong thực tế do nguy cơ nó tạo ra một ràng buộc thực sự khủng khiếp.

Chúng tôi có thể đánh giá mức độ chính xác của ba thủ tục LCL của chúng tôi. Một cách tốt là xem xét các phân phối lấy mẫu của họ: tương tự, biểu đồ của nhiều giá trị mô phỏng cũng sẽ làm như vậy. Họ đây rồi. Trước tiên, mã để sản xuất chúng:

dx <- -min(sim)/12
breaks <- seq(from=min(sim), to=max(sim)+dx, by=dx)
par(mfcol=c(1,3))
tmp <- sapply(c("min", "max", "mean"), function(s) {
  hist(sim[s,], breaks=breaks, col="#70C0E0", 
       main=paste("Histogram of", s, "procedure"), 
       yaxt="n", ylab="", xlab="LCL");
  hist(sim[s, sim[s,] > 0], breaks=breaks, col="Red", add=TRUE)
})

Biểu đồ

Chúng được hiển thị trên các trục x giống hệt nhau (nhưng trục dọc hơi khác nhau). Điều chúng tôi quan tâm là

Các phần màu đỏ ở bên phải của đó các khu vực biểu thị tần suất mà các quy trình không đánh giá thấp giá trị trung bình - tất cả đều bằng với số tiền mong muốn, . (Chúng tôi đã xác nhận rằng bằng số.) $0$ $\alpha=.05$
Sự lây lan của kết quả mô phỏng. Rõ ràng, biểu đồ ngoài cùng bên phải hẹp hơn hai biểu đồ kia: nó mô tả một quy trình thực sự đánh giá thấp trung bình (bằng ) hoàn toàn % thời gian, nhưng ngay cả khi nó, việc đánh giá thấp đó hầu như luôn nằm trong của đúng nghĩa Hai biểu đồ khác có xu hướng đánh giá thấp giá trị trung bình thực hơn một chút, khoảng quá thấp. Ngoài ra, khi họ đánh giá quá cao ý nghĩa thực sự, họ có xu hướng đánh giá quá cao nó hơn là thủ tục ngoài cùng. Những phẩm chất này làm cho chúng thấp hơn biểu đồ ngoài cùng bên phải. $0$ $95$ $2 \sigma$ $3\sigma$

Biểu đồ ngoài cùng bên phải mô tả Tùy chọn 2, thủ tục LCL thông thường.

Một thước đo của các chênh lệch này là độ lệch chuẩn của kết quả mô phỏng:

> apply(sim, 1, sd)
     max      min     mean 
0.673834 0.677219 0.453829

Những con số này cho chúng ta biết rằng các thủ tục tối đa và tối thiểu có mức chênh lệch bằng nhau (khoảng ) và quy trình thông thường, trung bình , chỉ có khoảng hai phần ba mức chênh lệch của chúng (khoảng ). Điều này xác nhận bằng chứng của đôi mắt của chúng tôi. $0.68$ $0.45$

Bình phương của độ lệch chuẩn là phương sai, tương ứng bằng , và . Phương sai có thể liên quan đến lượng dữ liệu : nếu một nhà phân tích đề xuất quy trình tối đa (hoặc tối thiểu ), thì để đạt được mức chênh lệch hẹp được thể hiện bằng thủ tục thông thường, khách hàng của họ sẽ phải lấy được lần dữ liệu - hơn gấp đôi. Nói cách khác, bằng cách sử dụng Tùy chọn 1, bạn sẽ phải trả nhiều hơn gấp đôi cho thông tin của mình so với sử dụng Tùy chọn 2. $0.45$ $0.45$ $0.20$ $0.45/0.21$

— whuber
nguồn

Bạn không bao giờ thất bại trong việc làm tôi ngạc nhiên.

— Momo

+1 @whuber Đây là một minh họa đẹp. Trong việc mô tả khoảng tin cậy của bootstrap, Efron nói về độ chính xác và tính chính xác. Độ chính xác là mức độ tin cậy thực sự của khoảng thời gian gần với giá trị được quảng cáo. 3 ví dụ của bạn đều chính xác. Chính xác đề cập đến tốt nhất. Đối với khoảng tin cậy hai mặt có nghĩa là một khoảng chính xác có chiều rộng ngắn nhất (khoảng hoặc giới hạn dựa trên giá trị trung bình trong trường hợp của bạn). Ví dụ của bạn rất thú vị vì ba phương pháp ít nhất là hơi cạnh tranh.

— Michael R. Chernick

Tùy chọn OP 1 không gần như cạnh tranh vì những lý do tôi đưa ra trong câu trả lời của mình.

— Michael R. Chernick

@Michael Tôi đồng ý rằng cách giải thích của bạn về Phương án 1 không cạnh tranh. Điều tôi thấy thú vị - và khám phá ở đây - là có một số cách giải thích khả thi hơn về cách người ta có thể "tính giới hạn dưới thực tế" từ năm cái riêng biệt, hai trong số đó tôi đã xem xét ở đây. Có lẽ tôi cũng nên xem xét kỹ một tùy chọn "trung vị": nó sẽ không thua kém nhiều so với tính toán thông thường (kém hiệu quả hơn khoảng 40%).

— whuber

Tùy chọn đầu tiên không tính đến phương sai giảm mà bạn nhận được từ mẫu Tùy chọn đầu tiên cung cấp cho bạn năm giới hạn tin cậy 95% thấp hơn cho giá trị trung bình dựa trên mẫu có kích thước 1 trong mỗi trường hợp. Kết hợp chúng bằng cách tính trung bình không tạo ra một ràng buộc mà bạn có thể hiểu là ràng buộc thấp hơn 95%. Không ai sẽ làm điều đó. Tùy chọn thứ hai là những gì được thực hiện. Trung bình của năm quan sát độc lập có phương sai nhỏ hơn 6 lần so với phương sai cho một mẫu. Do đó, nó cung cấp cho bạn một giới hạn thấp tốt hơn nhiều so với bất kỳ trong số năm bạn đã tính theo cách đầu tiên.

Ngoài ra nếu X có thể được coi là iid bình thường thì T sẽ bình thường. $_i$

— Michael R. Chernick
nguồn