Có tính đến độ không đảm bảo của p khi ước tính giá trị trung bình của phân phối nhị thức


7

Tôi có phân phối nhị thức với tham số và và ước tính cho giá trị trung bình của phân phối của tôi là N . Các giá trị của và sao cho chúng ta có thể sử dụng xấp xỉ Gaussian để ước tính của giá trị trung bình là . Vấn đề là tôi đã ước tính , vì vậy thực sự là một phân phối Gaussian với trung bình biết và . Mục tiêu của tôi là tìm khoảng tin cậy cho giá trị trung bình của phân phối nhị thức của tôi, nhưng làm thế nào để tôi tính đến sự không chắc chắn của ?Np×pNpσ(n×p(1p)ppσp

Câu trả lời:


15

Có một số vấn đề với cách tiếp cận của bạn. Đầu tiên, bạn muốn sử dụng khoảng tin cậy cho những thứ mà chúng không được thiết kế cho. Nếu thay đổi, thì khoảng tin cậy sẽ không cho bạn thấy nó thay đổi như thế nào. Kiểm tra Tại sao Khoảng tin cậy (CI) 95% không ngụ ý 95% cơ hội chứa giá trị trung bình? để tìm hiểu thêm về khoảng tin cậy. Hơn nữa, sử dụng xấp xỉ bình thường cho tỷ lệ nhị thức và khoảng tin cậy của nó không phải là một ý tưởng hay, như được mô tả bởi Brown et al (2001) .p

Trong thực tế, từ mô tả của bạn, có vẻ như bạn muốn ước tính khoảng tin cậy Bayes , tức là khoảng sẽ chứa một phần phân phối nhất định của . Vâng, tôi đã nói Bayes , vì trên thực tế bạn đã xác định vấn đề của mình là mô hình Bayes. Bạn nói rằng bạn giả sử rằng là một biến ngẫu nhiên, trong khi trong cài đặt thường xuyên, sẽ là một tham số cố định. Nếu bạn đã giả định nó, tại sao không sử dụng mô hình Bayes cho dữ liệu của bạn? Bạn sẽ sử dụng mô hình nhị phân beta (xem thêm Giới thiệu về mô hình Beta-Binomialpppgiấy của Dan Navarro và Amy Perfors). Trong trường hợp như thế này, cực kỳ dễ dàng để ước tính mô hình như vậy. Chúng ta có thể định nghĩa nó như sau:

XBinomial(N,p)pBeta(α,β)

vì vậy, dữ liệu của bạn tuân theo phân phối nhị thức được tham số hóa bởi và , trong đó là một biến ngẫu nhiên. Chúng tôi giả sử phân phối beta với tham số và là ưu tiên hàng đầu cho . Tôi đoán rằng nếu bạn muốn sử dụng phương pháp thường xuyên, bạn không có bất kỳ kiến thức nào trước về phân phối có thể , vì vậy bạn sẽ chọn tham số trước "không chính xác" bởi hoặc (nếu bạn thích, bạn có thể dịch các tham số đó sangXNppαβppα=β=1α=β=0.5trung bình và độ chính xác , hoặc trung bình và phương sai ). Sau khi cập nhật của bạn trước , sau phân phối đơn giản chỉ là một bản phân phối beta parametrized bởip

α=α+total number of successesβ=β+total number of failures

với ý nghĩa

E(X)=Nαα+β

Để đọc thêm về cách tính số lượng khác của phân phối này, hãy kiểm tra bài viết Wikipedia về phân phối nhị thức beta . Bạn có thể tính các khoảng tin cậy bằng số bằng cách (a) đảo ngược số lượng hàm phân phối tích lũy của phân phối nhị phân beta hoặc bằng cách (b) lấy mẫu số lượng lớn các giá trị ngẫu nhiên từ phân phối nhị phân beta và sau đó tính toán các lượng tử mẫu từ nó. Cách tiếp cận thứ hai khá dễ dàng vì bạn chỉ cần lặp lại tuần tự quy trình sau:

  1. rút từ phân phối beta được tham số hóa bởi và ,pαβ
  2. vẽ từ phân phối nhị thức parametrized bởi và .xpN

cho đến khi bạn vẽ mẫu đủ lớn để thấy nó tự tin để tính toán số lượng quan tâm.


Tất nhiên nếu bạn biết giá trị trung bình và độ lệch chuẩn của và bạn khăng khăng sử dụng phân phối bình thường cho nó, bạn cũng có thể sử dụng mô phỏng, nhưng với việc sử dụng phân phối bình thường để mô phỏng các giá trị của . Dưới đây tôi cung cấp ví dụ mã trong R cho mô phỏng như vậy.pp

R <- 1e5                       # number of samples to draw in simulation
N <- 500                       # known N
mu <- 0.3                      # known mean of p
sigma <- 0.07                  # known standard deviation of p
p <- rnorm(R, mu, sigma)       # simulate p
x <- rbinom(R, N, p)           # simulate X
mean(x)                        # estimate for mean of X
quantile(p*N, c(0.025, 0.975)) # 95% interval estimate for variability of E(X)

Hoặc bạn chỉ có thể lấy quantiles thích hợp sử dụng nghịch đảo của hàm phân phối tích lũy bình thường và nhân chúng bằng . Tuy nhiên, hãy nhớ rằng đây không phải là khoảng tin cậy, mà là khoảng tin cậy.N


Brown, LD, Cai, TT, & DasGupta, A. (2001). Ước lượng khoảng cho một tỷ lệ nhị thức. Khoa học thống kê, 101-117.


Cảm ơn vì đã trả lời tôi. Tôi nghĩ rằng cách tiếp cận thứ hai là hữu ích nhất đối với tôi. Tôi không có bất kỳ kinh nghiệm nào về thống kê Bayes, vì vậy tôi cần đọc thêm một chút về điều đó và bản phân phối beta. Tôi chỉ có một câu hỏi về bước 1 trong cách tiếp cận thứ hai: Tại sao tôi lại rút ra từ bản phân phối beta chứ không phải từ bản phân phối mà tôi biết p có?
Helga Holmestad

2
@HelgaHolmestad vì bạn cho rằng p đến từ phân phối beta;) beta là phân phối tốt hơn nhiều cho p sau đó là bình thường - nó được giới hạn trong [0,1], trong khi phân phối bình thường nằm trong khoảng từ đến . Hơn nữa, ngay cả khi bạn biết trước về phương tiện và phương sai của p, bạn có thể dễ dàng tìm thấy các tham số beta tương ứng với giá trị trung bình và phương sai mà bạn đã biết (xem stats.stackexchange.com/questions/12 232/ ). +
Tim
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.