Câu trả lời:
Câu hỏi này, bao gồm một tình huống phổ biến, xứng đáng có một câu trả lời đơn giản, không gần đúng. May mắn thay, có một.
Giả sử là các giá trị độc lập từ một phân phối không xác định có quantile tôi sẽ viết . Điều này có nghĩa là mỗi có cơ hội (ít nhất) nhỏ hơn hoặc bằng . Do đó, số lượng nhỏ hơn hoặc bằng có phân phối Binomial . F q th F - 1 ( q ) X i q F - 1 ( q ) X i F - 1 ( q ) ( n , q )
Được thúc đẩy bởi sự cân nhắc đơn giản này, Gerald Hahn và William Meeker trong cuốn sổ tay Khoảng thời gian thống kê (Wiley 1991) viết
Một khoảng bảo mật khoảng tin cậy cho được lấy ... làF - 1 ( q ) [ X ( l ) , X ( u ) ]
trong đó là số liệu thống kê thứ tự của mẫu. Họ tiến hành nói
Người ta có thể chọn các số nguyên đối xứng (hoặc gần như đối xứng) quanh và càng gần nhau càng tốt theo các yêu cầu mà
Biểu thức ở bên trái là cơ hội để biến Binomial có một trong các giá trị . Rõ ràng, đây là cơ hội số lượng giá trị dữ liệu nằm trong phạm vi thấp hơn của phân phối không quá nhỏ (nhỏ hơn ) cũng không quá lớn ( hoặc lớn hơn).
Hahn và Meeker theo sau với một số nhận xét hữu ích, mà tôi sẽ trích dẫn.
Khoảng trước là bảo thủ vì mức độ tin cậy thực tế, được đưa ra bởi phía bên trái của phương trình , lớn hơn giá trị được chỉ định . ...
Đôi khi không thể xây dựng một khoảng thống kê không phân phối có ít nhất mức độ tin cậy mong muốn. Vấn đề này đặc biệt nghiêm trọng khi ước tính phần trăm trong phần đuôi của phân phối từ một mẫu nhỏ. ... Trong một số trường hợp, nhà phân tích có thể đối phó với vấn đề này bằng cách chọn và không đối xứng. Một cách khác có thể là sử dụng mức độ tin cậy giảm.
Hãy làm việc thông qua một ví dụ (cũng được cung cấp bởi Hahn & Meeker). Họ cung cấp một tập hợp "số đo của một hợp chất từ một quá trình hóa học" và yêu cầu khoảng tin cậy cho phần trăm . Họ tuyên bố và sẽ hoạt động.
Tổng xác suất của khoảng này, như được hiển thị bằng các thanh màu xanh trong hình, là : gần bằng mức người ta có thể đạt tới , nhưng vẫn ở trên nó, bằng cách chọn hai điểm cắt và loại bỏ mọi cơ hội trong đuôi trái và đuôi phải nằm ngoài những điểm cắt đó.
Dưới đây là dữ liệu, được hiển thị theo thứ tự, bỏ qua giá trị ở giữa:
Các lớn nhất là và lớn nhất là . Do đó, khoảng thời gian là .
Hãy diễn giải lại điều đó. Quy trình này được cho là có ít nhất cơ hội bao phủ phần trăm . Nếu phần trăm đó thực sự vượt quá , điều đó có nghĩa là chúng tôi sẽ quan sát được hoặc nhiều hơn trong số giá trị trong mẫu của chúng tôi nằm dưới tỷ lệ phần trăm . Đó là quá nhiều. Nếu tỷ lệ phần trăm đó nhỏ hơn , điều đó có nghĩa là chúng tôi sẽ quan sát được hoặc ít hơn các giá trị trong mẫu của chúng tôi nằm dưới tỷ lệ phần trăm . Đó là quá ít. Trong cả hai trường hợp - chính xác như được chỉ ra bởi các thanh màu đỏ trong hình - đó sẽ là bằng chứng chống lại phân vị nằm trong khoảng này.
Một cách để tìm sự lựa chọn tốt của và là tìm kiếm theo nhu cầu của bạn. Đây là một phương pháp bắt đầu với một khoảng gần đúng đối xứng và sau đó tìm kiếm bằng cách thay đổi cả và lên đến để tìm một khoảng có độ bao phủ tốt (nếu có thể). Nó được minh họa bằng mã. Nó được thiết lập để kiểm tra phạm vi bảo hiểm trong ví dụ trước cho phân phối Bình thường. Đầu ra của nó làR
Độ che phủ trung bình mô phỏng là 0,93; phạm vi bảo hiểm dự kiến là 0,9523
Thỏa thuận giữa mô phỏng và kỳ vọng là tuyệt vời.
#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
#
# Search over a small range of upper and lower order statistics for the
# closest coverage to 1-alpha (but not less than it, if possible).
#
u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
l <- qbinom(alpha/2, n, q) + (-2:2)
u[u > n] <- Inf
l[l < 0] <- -Inf
coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
i <- which(coverage == min(coverage[coverage >= 1-alpha]))
i <- i[1]
#
# Return the order statistics and the actual coverage.
#
u <- rep(u, each=5)[i]
l <- rep(l, 5)[i]
return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100 # Sample size
q <- 0.90 # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4),
"; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))
Đạo hàm
Các -quantile (đây là khái niệm tổng quát hơn percentile) của một biến ngẫu nhiên được cho bởi . Bản sao mẫu có thể được viết là - đây chỉ là định lượng mẫu. Chúng tôi quan tâm đến việc phân phối:
Đầu tiên, chúng ta cần phân phối tiệm cận của cdf theo kinh nghiệm.
Vì , bạn có thể sử dụng định lý giới hạn trung tâm. là biến ngẫu nhiên bernoulli, vì vậy giá trị trung bình là và phương sai là .
Bây giờ, vì nghịch đảo là một hàm liên tục, chúng ta có thể sử dụng phương thức delta.
[** Phương thức delta nói rằng nếu và là một hàm liên tục, thì **]
Ở phía bên trái của (1), lấy và
[** lưu ý rằng có một chút khó khăn trong bước cuối cùng vì , nhưng chúng là không có triệu chứng bằng nhau nếu tẻ nhạt hiển thị **]
Bây giờ, áp dụng phương pháp delta đã đề cập ở trên.
Vì (hàm nghịch đảo định lý)
Sau đó, để xây dựng khoảng tin cậy, chúng ta cần tính toán sai số chuẩn bằng cách cắm vào các đối tác mẫu của từng điều khoản trong phương sai ở trên:
Kết quả
Vậy√
Và
Điều này sẽ yêu cầu bạn ước tính mật độ của , nhưng điều này sẽ khá đơn giản. Ngoài ra, bạn cũng có thể bootstrap CI khá dễ dàng.