Tóm lược
Khi bạn có thể giả định ít hoặc không có gì về luật xác suất thực và có thể suy ra rất ít về nó - đó là trường hợp đối với các mẫu nhỏ của các quan sát - thì một cặp thống kê đơn hàng được chọn phù hợp sẽ tạo thành khoảng tin cậy cho trung vị. Có thể dễ dàng tìm thấy số liệu thống kê đơn hàng nào với phân tích nhanh về phân phối Binomial . Có một số lựa chọn được thực hiện trong thực tế: chúng được thảo luận và minh họa ở cuối bài này.( n , 1 / 2 )n(n,1/2)
Ngẫu nhiên, phân tích tương tự có thể được sử dụng để xây dựng các khoảng tin cậy cho bất kỳ lượng tử nào (trong đó trung vị, tương ứng với , là một ví dụ). Phân phối Binomial chi phối giải pháp trong trường hợp này.q = 50 % ( n , q )qq=50%(n,q)
Giới thiệu
Nhớ lại ý nghĩa của khoảng tin cậy (CI). Bối cảnh là một mẫu độc lập ngẫu nhiên với mỗi chi phối bởi cùng một phân phối . Chỉ có giả thiết rằng là một thành phần của tập hợp có thể phân phối. Mỗi người trong số họ có một trung vị . Đối với bất kỳ cố định nào trong khoảng từ đến , CI của cấp là một cặp hàm (còn gọi là "thống kê"), và , sao choX i F F Ω F 1 / 2 α 0 1 α L UX=(X1,X2,…,Xn)XiFFΩF1/2α01αLU
PrF(L(X)≤F1/2≤U(X))≥1−α.
Phía bên tay phải là vùng phủ sóng của CI cho việc phân phối .F
Ngoài ra: để điều này hữu ích, chúng tôi cũng thích rằng (1) mức tối thiểu của độ che phủ so với càng nhỏ càng tốt và (2) độ dài dự kiến của khoảng, , nên có xu hướng viết tắt cho tất cả hoặc "nhất" .F∈ΩEF(U(X)−L(X))F∈Ω
Phân tích
Giả sử chúng ta không giả sử gì về . Ω Trong tình huống này, chúng tôi vẫn có thể khai thác số liệu thống kê đơn hàng . Đây là các giá trị cụ thể trong mẫu được sắp xếp. Để đơn giản hóa ký hiệu, hãy sắp xếp mẫu một lần và mãi mãi để
X1≤X2≤⋯≤Xn.
Giá trị là thống kê thứ tự của mẫu. Vì chúng tôi không giả định gì về , ban đầu chúng tôi không biết gì về , vì vậy chúng tôi không thể suy luận nhiều về khoảng thời gian có thể xảy ra giữa mỗi và hàng xóm . Tuy nhiên, chúng ta vẫn có thể suy luận một cách định lượng về các giá trị riêng lẻ: cơ hội mà không vượt quá trung vị của gì? Để tìm ra điều này, hãy để là một biến ngẫu nhiên được điều chỉnh bởi và đểXiithΩFXiXi+1XiFYF
πF=PrF(Y≤F1/2)
là cơ hội mà không vượt quá mức trung bình của . Sau đó, khi chúng ta đã biết (vì ) mà ban đầu mẫu có thứ tự của chúng ta về giá trị phải chứa ít nhất các giá trị không quá .YFXi≤F1/2X1≤⋯≤Xi≤F1/2niF1/2
Đây là một vấn đề nhị thức. Chính thức, nếu chúng ta xác định biến ngẫu nhiên bằng khi và khác, thì ở trên cho thấy có phân phối Bernoulli với tham số . Một "thành công" bao gồm việc quan sát một giá trị ở hoặc dưới trung vị. Do đó được đưa ra bởi xác suất nhị thức liên quan đến ít hơn thành công:Z1Y≤F1/20ZπFPr(Xi>F1/2)i
Pr(Xi>F1/2)=∑j=0i−1(nj)πjF(1−πF)n−j.
Bạn có thể nhận thấy rằng . Trong thực tế, đối với nhiều phân phối, hai giá trị bằng nhau: chúng chỉ khác nhau khi gán xác suất dương cho trung vị . Để phân tích sự khác biệt, hãy viết cho . Đối với điều này ngụ ýπF≥1/2FF1/2πF=1/2+εε≥02(j−1)≤n
πjF(1−πF)n−j=(1/2+ε)j(1/2−ε)n−j=(1/2+ε)j[(1/2−ε)j(1/2−ε)n−2j]=(1/4−ε2)j(1/2−ε)n−2j≤(1/4)j(1/2)n−2j=2−n.
Do đó, khi , chúng ta có thể thoát khỏi sự phụ thuộc của tổng vào , với chi phí thay thế đẳng thức bằng một bất đẳng thức:2(i−1)≤nF
Pr(Xi>F1/2)≤2−n∑j=0i−1(nj).
Chính xác cùng một đối số (được áp dụng bằng cách đảo ngược số liệu thống kê đơn hàng) cho thấy rằng khi ,2(i+1)≥n
Pr(Xi<F1/2)≤2−n∑j=i+1n(nj).
Các cạnh bên phải giảm xuống 0 bất cứ khi nào (trong trường hợp đầu tiên) hoặc (trong lần thứ hai). Vì vậy, nó luôn luôn có thể tìm thấy các chỉ số mài≤0i≥nl≤u
Pr(Xl>F1/2 or Xu<F1/2)=Pr(Xl>F1/2)+Pr(Xu<F1/2)≤2−n(∑j=0l−1(nj)+∑j=u+1n(nj)).
Giải pháp
Đây là phần bổ sung của điều kiện xác định cho khoảng tin cậy và do đó tương đương với nó:
Pr(Xl≤F1/2≤Xu)≥2−n∑j=lu(nj).
Bằng cách chọn để tạo phía bên phải ít nhất , chúng tôi sẽ tìm thấy quy trình khoảng tin cậy có mức ít nhất là .l≤u1−α 1−α
Nói cách khác, khi chọn các chỉ số như vậy và , bằng cách đặt và , khoảng sẽ là CI cho trung vị có phạm vi bảo hiểm ít nhất . Bạn có thể tính toán phạm vi bảo hiểm thực tế của nó theo xác suất Binomial. Phạm vi bảo hiểm này sẽ đạt được cho bất kỳ phân phối nào xác định xác suất bằng không cho (bao gồm tất cả các phân phối liên tục). Nó sẽ bị vượt quá bởi bất kỳ nào gán xác suất khác không cho .luL(X)=XlU(X)=Xu[L(X),U(X)]F1/21−αFF1/2FF1/2
Thảo luận
Tại thời điểm này, chúng tôi có một số lựa chọn. Phổ biến nhất là làm cho các giới hạn đối xứng bằng cách đặt hợp lý gần với . Trong thực tế, bằng cách quy định , giới hạn độ tin cậy có thể được tìm thấy cho bất kỳ nào bằng cách tìm kiếm nhanh hoặc bằng cách áp dụng hàm lượng tử Binomial.un+1−lu=n+1−ln
Ví dụ: đặt và (để minh họa thủ tục CI). Hãy kiểm tra phần dưới của phân phối Binomial tích lũy với các tham số và :n=10α=10%1−α=90%101/2
> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
0 1 2 3 4 5
0.001 0.011 0.055 0.172 0.377 0.623
(Đây là một R
lệnh và phản hồi của nó.) Vì giá trị ở , bằng , gần với , nên lấy và , rất hấp dẫn thì phạm vi bảo hiểm sẽ là , gần với mục tiêu . Nếu bạn phải đạt được phạm vi bảo hiểm mong muốn, thì bạn cần lấy và hoặc và , cả hai đều có phạm vi bảo hiểm .25.5%α/2l=3u=10+1−3=81−0.055−0.055=0.8990%l=2u=8l=3u=91−0.011−.055=0.935
Để kiểm tra, hãy mô phỏng rất nhiều bộ dữ liệu từ bất kỳ phân phối nào, tính toán các TCTD này cho các bộ dữ liệu và kiểm tra tỷ lệ các TCTD bao gồm trung bình thực. R
Ví dụ này sử dụng phân phối chuẩn:
n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
Đầu ra là
l3.u8 l2.u8 l3.u9
0.8904 0.9357 0.9319
Các trang bìa đồng ý chặt chẽ với các giá trị lý thuyết.
Một ví dụ khác, hãy vẽ các mẫu từ một phân phối rời rạc, chẳng hạn như Poisson:
lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
l3.u8 l2.u8 l3.u9
0.9830 0.9845 0.9964
Lần này độ che phủ cao hơn nhiều so với dự đoán. Lý do là có cơ hội giá trị ngẫu nhiên bằng giá trị trung bình. Điều này làm tăng đáng kể cơ hội mà CI bao trùm trung vị. Đây không phải là một vấn đề hoặc một nghịch lý. Theo định nghĩa, phạm vi bảo hiểm phải có ít nhất dù phân phối là gì - nhưng có thể (như trong trường hợp này) rằng phạm vi bảo hiểm cho các phân phối cụ thể lớn hơn .27%1−αF1−α
Trong đó có sự đánh đổi: khi bạn không nghĩ gì về , CI dựa trên thống kê đơn hàng là thứ duy nhất bạn có thể xây dựng. Phạm vi bảo hiểm cho thực sự (nhưng chưa biết) của bạn có thể cao hơn một chút so với bạn mong đợi. Điều đó có nghĩa CI của bạn sẽ rộng hơn nếu bạn đã thực hiện một số giả định mạnh về bằng cách hạn chế các khả năng .FFΩF