Làm thế nào để có được khoảng tin cậy cho phần trăm?


14

Tôi có một loạt các giá trị dữ liệu thô là số tiền và tôi muốn tìm khoảng tin cậy cho phần trăm dữ liệu đó. Có một công thức cho một khoảng tin cậy như vậy?

Câu trả lời:


19

Câu hỏi này, bao gồm một tình huống phổ biến, xứng đáng có một câu trả lời đơn giản, không gần đúng. May mắn thay, có một.

Giả sử là các giá trị độc lập từ một phân phối không xác định có quantile tôi sẽ viết . Điều này có nghĩa là mỗi có cơ hội (ít nhất) nhỏ hơn hoặc bằng . Do đó, số lượng nhỏ hơn hoặc bằng có phân phối Binomial . F q th F - 1 ( q ) X i q F - 1 ( q ) X i F - 1 ( q ) ( n , q )X1,,XnFqthF1(q)XiqF1(q)XiF1(q)(n,q)

Được thúc đẩy bởi sự cân nhắc đơn giản này, Gerald Hahn và William Meeker trong cuốn sổ tay Khoảng thời gian thống kê (Wiley 1991) viết

Một khoảng bảo mật khoảng tin cậy cho được lấy ... làF - 1 ( q ) [ X ( l ) , X ( u ) ]100(1α)%F1(q)[X(l),X(u)]

trong đó là số liệu thống kê thứ tự của mẫu. Họ tiến hành nóiX(1)X(2)X(n)

Người ta có thể chọn các số nguyên đối xứng (hoặc gần như đối xứng) quanh và càng gần nhau càng tốt theo các yêu cầu mà0lunq(n+1)

(1)B(u1;n,q)B(l1;n,q)1α.

Biểu thức ở bên trái là cơ hội để biến Binomial có một trong các giá trị . Rõ ràng, đây là cơ hội số lượng giá trị dữ liệu nằm trong phạm vi thấp hơn của phân phối không quá nhỏ (nhỏ hơn ) cũng không quá lớn ( hoặc lớn hơn).(n,q){l,l+1,,u1}Xi100q%lu

Hahn và Meeker theo sau với một số nhận xét hữu ích, mà tôi sẽ trích dẫn.

Khoảng trước là bảo thủ vì mức độ tin cậy thực tế, được đưa ra bởi phía bên trái của phương trình , lớn hơn giá trị được chỉ định . ...(1)1α

Đôi khi không thể xây dựng một khoảng thống kê không phân phối có ít nhất mức độ tin cậy mong muốn. Vấn đề này đặc biệt nghiêm trọng khi ước tính phần trăm trong phần đuôi của phân phối từ một mẫu nhỏ. ... Trong một số trường hợp, nhà phân tích có thể đối phó với vấn đề này bằng cách chọn và không đối xứng. Một cách khác có thể là sử dụng mức độ tin cậy giảm.lu


Hãy làm việc thông qua một ví dụ (cũng được cung cấp bởi Hahn & Meeker). Họ cung cấp một tập hợp "số đo của một hợp chất từ ​​một quá trình hóa học" và yêu cầu khoảng tin cậy cho phần trăm . Họ tuyên bố và sẽ hoạt động.n=100100(1α)=95%q=0.90l=85u=97

Hình hiển thị phân phối Binomial (100, 0,90)

Tổng xác suất của khoảng này, như được hiển thị bằng các thanh màu xanh trong hình, là : gần bằng mức người ta có thể đạt tới , nhưng vẫn ở trên nó, bằng cách chọn hai điểm cắt và loại bỏ mọi cơ hội trong đuôi trái và đuôi phải nằm ngoài những điểm cắt đó.95.3%95%

Dưới đây là dữ liệu, được hiển thị theo thứ tự, bỏ qua giá trị ở giữa:81

1.491.662.0524.3324.7225.4625.6725.7726.6428.2828.2829.0729.1631.1431.8333.2437.3253.4358.11

Các lớn nhất là và lớn nhất là . Do đó, khoảng thời gian là .85th24.3397th33.24[24.33,33.24]

Hãy diễn giải lại điều đó. Quy trình này được cho là có ít nhất cơ hội bao phủ phần trăm . Nếu phần trăm đó thực sự vượt quá , điều đó có nghĩa là chúng tôi sẽ quan sát được hoặc nhiều hơn trong số giá trị trong mẫu của chúng tôi nằm dưới tỷ lệ phần trăm . Đó là quá nhiều. Nếu tỷ lệ phần trăm đó nhỏ hơn , điều đó có nghĩa là chúng tôi sẽ quan sát được hoặc ít hơn các giá trị trong mẫu của chúng tôi nằm dưới tỷ lệ phần trăm . Đó là quá ít.95%90th33.249710090th24.338490th Trong cả hai trường hợp - chính xác như được chỉ ra bởi các thanh màu đỏ trong hình - đó sẽ là bằng chứng chống lại phân vị nằm trong khoảng này.90th


Một cách để tìm sự lựa chọn tốt của và là tìm kiếm theo nhu cầu của bạn. Đây là một phương pháp bắt đầu với một khoảng gần đúng đối xứng và sau đó tìm kiếm bằng cách thay đổi cả và lên đến để tìm một khoảng có độ bao phủ tốt (nếu có thể). Nó được minh họa bằng mã. Nó được thiết lập để kiểm tra phạm vi bảo hiểm trong ví dụ trước cho phân phối Bình thường. Đầu ra của nó làlulu2R

Độ che phủ trung bình mô phỏng là 0,93; phạm vi bảo hiểm dự kiến ​​là 0,9523

Thỏa thuận giữa mô phỏng và kỳ vọng là tuyệt vời.

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

4

Đạo hàm

Các -quantile (đây là khái niệm tổng quát hơn percentile) của một biến ngẫu nhiên được cho bởi . Bản sao mẫu có thể được viết là - đây chỉ là định lượng mẫu. Chúng tôi quan tâm đến việc phân phối:τqτXFX1(τ)q^τ=F^1(τ)

n(q^τqτ)

Đầu tiên, chúng ta cần phân phối tiệm cận của cdf theo kinh nghiệm.

Vì , bạn có thể sử dụng định lý giới hạn trung tâm. là biến ngẫu nhiên bernoulli, vì vậy giá trị trung bình là và phương sai là .F^(x)=1n1{Xi<x}1{Xi<x}P(Xi<x)=F(x)F(x)(1F(x))

n(F^(x)F(x))N(0,F(x)(1F(x)))(1)

Bây giờ, vì nghịch đảo là một hàm liên tục, chúng ta có thể sử dụng phương thức delta.

[** Phương thức delta nói rằng nếu và là một hàm liên tục, thì **]n(y¯μy)N(0,σ2)g()n(g(y¯)g(μy))N(0,σ2(g(μy))2)

Ở phía bên trái của (1), lấy vàx=qτg()=F1()

n(F1(F^(qτ))F1(F(qτ)))=n(q^τqτ)

[** lưu ý rằng có một chút khó khăn trong bước cuối cùng vì , nhưng chúng là không có triệu chứng bằng nhau nếu tẻ nhạt hiển thị **]F1(F^(qτ))F^1(F^(qτ))=q^τ

Bây giờ, áp dụng phương pháp delta đã đề cập ở trên.

Vì (hàm nghịch đảo định lý)ddxF1(x)=1f(F1(x))

n(q^τqτ)N(0,F(qτ)(1F(qτ))f(F1(F(qτ)))2)=N(0,F(qτ)(1F(qτ))f(qτ)2)

Sau đó, để xây dựng khoảng tin cậy, chúng ta cần tính toán sai số chuẩn bằng cách cắm vào các đối tác mẫu của từng điều khoản trong phương sai ở trên:

Kết quả

Vậyse(q^τ)=F^(q^τ)(1F^(q^τ))nf^(q^τ)2= τ(1τ)nf^(q^τ)2

CI0.95(q^τ)=q^τ±1.96se(q^τ)

Điều này sẽ yêu cầu bạn ước tính mật độ của , nhưng điều này sẽ khá đơn giản. Ngoài ra, bạn cũng có thể bootstrap CI khá dễ dàng.X


1
Bạn có thể mở rộng câu trả lời của bạn với nội dung từ bài viết được liên kết? Liên kết có thể không hoạt động mãi mãi và sau đó câu trả lời này sẽ trở nên ít hữu ích hơn
Andy

1
Lợi thế của kết quả tiệm cận này dựa trên ước tính mật độ so với phân phối miễn phí được phân bổ trên phân phối nhị thức là gì?
Michael M

Đây có phải vẫn dựa trên bài viết bạn liên kết ban đầu ?
Nick Stauner

Có, tôi có nên thêm liên kết đó lại không? Tôi nghĩ rằng đây là một kết quả nổi tiếng. Tôi đã nhìn thấy nó trong lớp trước đây và không khó để tìm thấy bởi google. Trong trường hợp như thế này, tốt hơn là liên kết với nó hoặc gõ nó lên, hoặc cả hai?
bmciv

Tôi muốn nói cả hai, và bạn nên chỉnh sửa lại nếu điều này được trích dẫn / xuất phát hoàn toàn từ nó vì mục đích quy kết hợp lý. Mặt khác, bạn có thể chỉnh sửa nó hay không, nhưng nói chung, chính sách Stack Exchange là không khuyến khích các câu trả lời chỉ liên kết để tránh thối liên kết và như một vấn đề nguyên tắc (ý tưởng là một kho lưu trữ độc lập, không phải là một chỉ mục liên kết - nhưng Tôi không chắc có bao nhiêu kịch bản đó nhiều hơn một "dốc trơn trượt" tưởng tượng).
Nick Stauner
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.