Khoảng tin cậy cho trung vị


9

Tôi có một phân phối mẫu với một số lượng nhỏ các giá trị trong mỗi mẫu (dưới ). Tôi đã tính toán trung vị cho mỗi mẫu mà tôi muốn so sánh với một mô hình và có được sự khác biệt giữa mô hình và trung vị của từng mẫu. Để có một kết quả nhất quán, tôi cần một lỗi về sự khác biệt này.10

Kết quả là việc tìm độ lệch chuẩn trong trường hợp như vậy có thể khá khó khăn, ít nhất là đối với một người không chuyên nghiệp như tôi (xem ví dụ ở đây ).

Tôi đã tìm thấy trang web này cho biết cách tính khoảng tin cậy cho trung vị, ngay cả khi không có tài liệu tham khảo chính thức được trích dẫn.

Nó có vẻ hợp lý với tôi, nhưng tôi thực sự không thể phán xét, vì vậy tôi muốn biết:

  1. những công thức đó có đúng không?
  2. Có một tài liệu tham khảo cho điều đó?
  3. Nếu tôi muốn tìm CI khác với thì sao?95%

Cảm ơn trước

EDIT: Tôi cũng đã tìm thấy ví dụ này về bootstrapping cho dữ liệu không phải Gaussian . Bây giờ, tôi không biết nhiều về bootstrapping, nhưng sẽ rất tốt nếu có một địa chỉ về tính hợp lệ của nó.


Phân phối lấy mẫu chính xác của trung vị mẫu được lấy tại stats.stackexchange.com/questions/45124 . (Phân phối tiệm cận cũng được đưa ra trong hầu hết các câu trả lời, nhưng những điều đó dường như không liên quan ở đây.) Cả hai điều này đều không giống với khoảng tin cậy, mặc dù ....
whuber

@whuber, cảm ơn vì liên kết, nhưng tôi không thể nắm bắt được mối quan hệ. Bạn có thể vui lòng rõ ràng hơn một chút?
Py-ser

Để tìm khoảng tin cậy (CI) cho một tham số, sử dụng một thống kê cụ thể, bạn cần biết phân phối lấy mẫu của thống kê đó. Ở đây bạn tìm kiếm một CI cho trung vị dân số (tham số) dựa trên mẫu và bạn hỏi cụ thể liên quan đến trung vị mẫu (một thống kê). (Chủ đề tôi tham khảo giải quyết câu hỏi sau.) Điều quan trọng là phải biết phân phối chính xác của thống kê đó; từ đó một thủ tục khoảng tin cậy có thể được bắt nguồn. Các kết quả tiệm cận - dựa trên tài liệu tham khảo của riêng bạn - có nguy cơ xấp xỉ kém cho các cỡ mẫu nhỏ.
whuber

Thống kê là Poissonia. Nhưng tôi chưa hiểu: bạn đề cập đến kết quả tiệm cận nào? Là những công thức một trường hợp cụ thể?
Py-ser

1
Tôi đoán bạn đã không đọc câu trả lời của tôi trong chủ đề đó, vì nó cho kết quả chính xác cho bất kỳ số lượng quan sát nào: "Đây là một công thức chính xác để phân phối trung vị cho bất kỳ phân phối liên tục nào."
whuber

Câu trả lời:


14

Tóm lược

Khi bạn có thể giả định ít hoặc không có gì về luật xác suất thực và có thể suy ra rất ít về nó - đó là trường hợp đối với các mẫu nhỏ của các quan sát - thì một cặp thống kê đơn hàng được chọn phù hợp sẽ tạo thành khoảng tin cậy cho trung vị. Có thể dễ dàng tìm thấy số liệu thống kê đơn hàng nào với phân tích nhanh về phân phối Binomial . Có một số lựa chọn được thực hiện trong thực tế: chúng được thảo luận và minh họa ở cuối bài này.( n , 1 / 2 )n(n,1/2)

Ngẫu nhiên, phân tích tương tự có thể được sử dụng để xây dựng các khoảng tin cậy cho bất kỳ lượng tử nào (trong đó trung vị, tương ứng với , là một ví dụ). Phân phối Binomial chi phối giải pháp trong trường hợp này.q = 50 % ( n , q )qq=50%(n,q)

Giới thiệu

Nhớ lại ý nghĩa của khoảng tin cậy (CI). Bối cảnh là một mẫu độc lập ngẫu nhiên với mỗi chi phối bởi cùng một phân phối . Chỉ có giả thiết rằng là một thành phần của tập hợp có thể phân phối. Mỗi người trong số họ có một trung vị . Đối với bất kỳ cố định nào trong khoảng từ đến , CI của cấp là một cặp hàm (còn gọi là "thống kê"), và , sao choX i F F Ω F 1 / 2 α 0 1 α L UX=(X1,X2,,Xn)XiFFΩF1/2α01αLU

PrF(L(X)F1/2U(X))1α.

Phía bên tay phải là vùng phủ sóng của CI cho việc phân phối .F

Ngoài ra: để điều này hữu ích, chúng tôi cũng thích rằng (1) mức tối thiểu của độ che phủ so với càng nhỏ càng tốt và (2) độ dài dự kiến ​​của khoảng, , nên có xu hướng viết tắt cho tất cả hoặc "nhất" .FΩEF(U(X)L(X))FΩ

Phân tích

Giả sử chúng ta không giả sử gì về . Ω Trong tình huống này, chúng tôi vẫn có thể khai thác số liệu thống kê đơn hàng . Đây là các giá trị cụ thể trong mẫu được sắp xếp. Để đơn giản hóa ký hiệu, hãy sắp xếp mẫu một lần và mãi mãi để

X1X2Xn.

Giá trị là thống kê thứ tự của mẫu. Vì chúng tôi không giả định gì về , ban đầu chúng tôi không biết gì về , vì vậy chúng tôi không thể suy luận nhiều về khoảng thời gian có thể xảy ra giữa mỗi và hàng xóm . Tuy nhiên, chúng ta vẫn có thể suy luận một cách định lượng về các giá trị riêng lẻ: cơ hội mà không vượt quá trung vị của gì? Để tìm ra điều này, hãy để là một biến ngẫu nhiên được điều chỉnh bởi và đểXiithΩFXiXi+1XiFYF

πF=PrF(YF1/2)

là cơ hội mà không vượt quá mức trung bình của . Sau đó, khi chúng ta đã biết (vì ) mà ban đầu mẫu có thứ tự của chúng ta về giá trị phải chứa ít nhất các giá trị không quá .YFXiF1/2X1XiF1/2niF1/2

Đây là một vấn đề nhị thức. Chính thức, nếu chúng ta xác định biến ngẫu nhiên bằng khi và khác, thì ở trên cho thấy có phân phối Bernoulli với tham số . Một "thành công" bao gồm việc quan sát một giá trị ở hoặc dưới trung vị. Do đó được đưa ra bởi xác suất nhị thức liên quan đến ít hơn thành công:Z1YF1/20ZπFPr(Xi>F1/2)i

Pr(Xi>F1/2)=j=0i1(nj)πFj(1πF)nj.

Bạn có thể nhận thấy rằng . Trong thực tế, đối với nhiều phân phối, hai giá trị bằng nhau: chúng chỉ khác nhau khi gán xác suất dương cho trung vị . Để phân tích sự khác biệt, hãy viết cho . Đối với điều này ngụ ýπF1/2FF1/2πF=1/2+εε02(j1)n

πFj(1πF)nj=(1/2+ε)j(1/2ε)nj=(1/2+ε)j[(1/2ε)j(1/2ε)n2j]=(1/4ε2)j(1/2ε)n2j(1/4)j(1/2)n2j=2n.

Do đó, khi , chúng ta có thể thoát khỏi sự phụ thuộc của tổng vào , với chi phí thay thế đẳng thức bằng một bất đẳng thức:2(i1)nF

Pr(Xi>F1/2)2nj=0i1(nj).

Chính xác cùng một đối số (được áp dụng bằng cách đảo ngược số liệu thống kê đơn hàng) cho thấy rằng khi ,2(i+1)n

Pr(Xi<F1/2)2nj=i+1n(nj).

Các cạnh bên phải giảm xuống 0 bất cứ khi nào (trong trường hợp đầu tiên) hoặc (trong lần thứ hai). Vì vậy, nó luôn luôn có thể tìm thấy các chỉ số mài0inlu

Pr(Xl>F1/2 or Xu<F1/2)=Pr(Xl>F1/2)+Pr(Xu<F1/2)2n(j=0l1(nj)+j=u+1n(nj)).

Giải pháp

Đây là phần bổ sung của điều kiện xác định cho khoảng tin cậy và do đó tương đương với nó:

Pr(XlF1/2Xu)2nj=lu(nj).

Bằng cách chọn để tạo phía bên phải ít nhất , chúng tôi sẽ tìm thấy quy trình khoảng tin cậy có mức ít nhất là .lu1α 1α

Nói cách khác, khi chọn các chỉ số như vậy và , bằng cách đặt và , khoảng sẽ là CI cho trung vị có phạm vi bảo hiểm ít nhất . Bạn có thể tính toán phạm vi bảo hiểm thực tế của nó theo xác suất Binomial. Phạm vi bảo hiểm này sẽ đạt được cho bất kỳ phân phối nào xác định xác suất bằng không cho (bao gồm tất cả các phân phối liên tục). Nó sẽ bị vượt quá bởi bất kỳ nào gán xác suất khác không cho .luL(X)=XlU(X)=Xu[L(X),U(X)]F1/21αFF1/2FF1/2

Thảo luận

Tại thời điểm này, chúng tôi có một số lựa chọn. Phổ biến nhất là làm cho các giới hạn đối xứng bằng cách đặt hợp lý gần với . Trong thực tế, bằng cách quy định , giới hạn độ tin cậy có thể được tìm thấy cho bất kỳ nào bằng cách tìm kiếm nhanh hoặc bằng cách áp dụng hàm lượng tử Binomial.un+1lu=n+1ln

Ví dụ: đặt và (để minh họa thủ tục CI). Hãy kiểm tra phần dưới của phân phối Binomial tích lũy với các tham số và :n=10α=10%1α=90%101/2

> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
    0     1     2     3     4     5   
0.001 0.011 0.055 0.172 0.377 0.623 

(Đây là một Rlệnh và phản hồi của nó.) Vì giá trị ở , bằng , gần với , nên lấy và , rất hấp dẫn thì phạm vi bảo hiểm sẽ là , gần với mục tiêu . Nếu bạn phải đạt được phạm vi bảo hiểm mong muốn, thì bạn cần lấy và hoặc và , cả hai đều có phạm vi bảo hiểm .25.5%α/2l=3u=10+13=810.0550.055=0.8990%l=2u=8l=3u=910.011.055=0.935

Để kiểm tra, hãy mô phỏng rất nhiều bộ dữ liệu từ bất kỳ phân phối nào, tính toán các TCTD này cho các bộ dữ liệu và kiểm tra tỷ lệ các TCTD bao gồm trung bình thực. RVí dụ này sử dụng phân phối chuẩn:

n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))

Đầu ra là

 l3.u8  l2.u8  l3.u9 
 0.8904 0.9357 0.9319 

Các trang bìa đồng ý chặt chẽ với các giá trị lý thuyết.

Một ví dụ khác, hãy vẽ các mẫu từ một phân phối rời rạc, chẳng hạn như Poisson:

lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))

 l3.u8  l2.u8  l3.u9 
0.9830 0.9845 0.9964 

Lần này độ che phủ cao hơn nhiều so với dự đoán. Lý do là có cơ hội giá trị ngẫu nhiên bằng giá trị trung bình. Điều này làm tăng đáng kể cơ hội mà CI bao trùm trung vị. Đây không phải là một vấn đề hoặc một nghịch lý. Theo định nghĩa, phạm vi bảo hiểm phải có ít nhất dù phân phối là gì - nhưng có thể (như trong trường hợp này) rằng phạm vi bảo hiểm cho các phân phối cụ thể lớn hơn .27%1αF1α

Trong đó có sự đánh đổi: khi bạn không nghĩ gì về , CI dựa trên thống kê đơn hàng là thứ duy nhất bạn có thể xây dựng. Phạm vi bảo hiểm cho thực sự (nhưng chưa biết) của bạn có thể cao hơn một chút so với bạn mong đợi. Điều đó có nghĩa CI của bạn sẽ rộng hơn nếu bạn đã thực hiện một số giả định mạnh về bằng cách hạn chế các khả năng .FFΩF


Câu trả lời này tập trung vào câu hỏi số 3. Đối với hai câu hỏi đầu tiên, (1) ("những công thức này có đúng không?"), Câu trả lời không hoàn toàn, bởi vì chúng sử dụng một xấp xỉ Bình thường cho phân phối Binomial; và (2) ("có một tài liệu tham khảo"), câu trả lời có lẽ là, nhưng ai quan tâm? Một tài liệu tham khảo cho phân tích trong câu trả lời này là Hahn & Meeker, Khoảng thời gian thống kê .
whuber

3

Nếu bạn muốn sử dụng các phương thức số, bạn có thể tạo ước tính phân phối lấy mẫu trung bình bằng cách sử dụng bootstrap. Liên tục lấy mẫu lại mẫu của bạn và tính toán nhiều trung vị. Các stdev của các trung vị này đóng vai trò như một ước tính của stdev của phân phối mẫu của các trung vị. Tôi đã sử dụng một phương pháp tương tự để tính toán sự không chắc chắn của kết quả trò chơi cờ vua trong bài viết của tôi về các cuộc thi cờ vua có thể được tìm thấy ở đây https://sonoma.academia.edu/JamalMunshi/ con


Đây là một ý tưởng tốt. Trong phần bình luận cho câu hỏi, điều cần thiết là phân tích độ chính xác của nó cho nhỏ . Ngoài ra, không có điểm nào để liên tục lấy mẫu lại trong thực tế vì phân phối chính xác rất dễ thu được ở dạng đóng. Đối với tập dữ liệu , cơ hội trung bình của mẫu bootstrap không vượt quá (trong đó ) là cơ hội có ít nhất một nửa các giá trị mẫu nằm trong tập . Điều này được đưa ra bởi một phân phối Binomial với tham số và . nx1x2xnxxix<xi+1{x1,x2,xi}ni/n
whuber

@whuber, xin lỗi, bạn có nghĩa là "đây KHÔNG phải là một ý tưởng tốt", phải không?
Py-ser

@ Py-ser Ý tưởng cơ bản là tốt theo nghĩa là một phiên bản của nó sẽ hoạt động, nhưng cả việc giải thích và thực hiện đều cần cải tiến.
whuber

Nhưng, toàn bộ cuộc thảo luận trước đây của chúng tôi là bạn nghĩ rằng bootstrapping KHÔNG phải là một ý tưởng tốt.
Py-ser
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.