Khoảng tin cậy để lấy mẫu Bernoulli


42

Tôi có một mẫu ngẫu nhiên các biến ngẫu nhiên Bernoulli , trong đó X i là iidrv và P ( X i = 1 ) = pp là một tham số chưa biết.X1...XNXiP(Xi=1)=pp

Rõ ràng, người ta có thể tìm thấy một ước tính cho : p : = ( X 1 + + X N ) / N .pp^:=(X1++XN)/N

Câu hỏi của tôi là làm thế nào tôi có thể xây dựng một khoảng tin cậy cho ?p


2
Các wikipedia có chi tiết về cách tính khoảng tin cậy để lấy mẫu bernoulli .

Câu trả lời:


52
  • Nếu tỷ lệ trung , không phải là gần 1 hoặc 0 , và kích thước mẫu n là đủ lớn (tức là n p > 5n ( 1 - p ) > 5 , khoảng tin cậy có thể được ước tính bằng cách phân phối chuẩn và khoảng tin cậy được xây dựng như vậy:p^10nnp^>5n(1p^)>5

    p^±z1α/2p^(1p^)n
  • Nếu p = 0n > 30 thì 95 % khoảng tin cậy là khoảng [ 0 , 3p^=0n>3095%(Javanovic và Levy, 1997); ngược lại giữ cho p =1. Tham chiếu cũng thảo luận về việc sử dụngn+1n+b(phần sau để kết hợp thông tin trước).[0,3n] p^=1n+1n+b

  • np^

R cung cấp các hàm binconf {Hmisc}binom.confint {binom}có thể được sử dụng theo cách sau:

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

Agresti, Alan; Coull, Brent A. (1998). "Xấp xỉ là tốt hơn" chính xác "để ước tính khoảng thời gian của tỷ lệ nhị thức". Thống kê người Mỹ 52: 119 Từ 126.

Jovanovic, BD và PS Levy, 1997. Hãy nhìn vào Quy tắc của ba. Thống kê người Mỹ Vol. 51, số 2, trang 137-139

Ross, TD (2003). "Khoảng tin cậy chính xác cho tỷ lệ nhị thức và ước tính tỷ lệ Poisson". Máy tính trong Sinh học và Y học 33: 509 trừ531.


3
(+1) Câu trả lời hay. Điều này sẽ trở thành một tài liệu tham khảo cho các câu hỏi tương tự trong tương lai, tôi nghĩ vậy. Tuy nhiên, đăng chéo là bất thường; trong thực tế, tôi tin rằng nó được tán thành, bởi vì nó làm hỏng nhiều khía cạnh của hệ thống phản hồi / tham chiếu / luồng / nhận xét. Vui lòng xem xét loại bỏ một trong các bản sao và thay thế nó bằng một liên kết trong một bình luận.
whuber

@whuber cảm ơn đã phản hồi. Tôi đã loại bỏ các bản sao khác.
David LeBauer

Trong công thức đầu tiên, z1 và alpha là gì?
Cirdec

z1α/21α/2α

3/n

7

Khoảng tin cậy tối đa

p

β^0=log(p^/(1p^))

αβ0

CI(β0)α=β^0±Zα/21/(np^(1p^)

p

CI(p)α=1/(1+exp(CI(β0)α)

CI này có thêm lợi ích là tỷ lệ nằm trong khoảng giữa 0 hoặc 1, và CI luôn hẹp hơn khoảng bình thường trong khi ở mức chính xác. Bạn có thể nhận được điều này rất dễ dàng trong R bằng cách chỉ định:

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 % 
0.2795322 0.4670450 

Khoảng tin cậy nhị thức chính xác

Y=np^(n,p)p^

CIα=(Fp^1(0.025),Fp^1(0.975))

p

qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

Khoảng tin cậy trung bình không thiên vị

pp1α/2

p1α/2:P(Y=0)/2+P(Y>y)>0.975

Đây cũng là một thói quen tính toán.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) + 
    pbinom(1, 100, p, lower.tail = F) - 
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

Hai phương thức cuối cùng được thực hiện trong epitoolsgói trong R.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.