Khoảng tin cậy cho trung vị

40

Tôi phải tìm 95% CI trên trung vị và các phân vị khác. Tôi không biết làm thế nào để tiếp cận điều này. Tôi chủ yếu sử dụng R như một công cụ lập trình.

r confidence-interval median

— Đaminh Comtois
nguồn

31

Dưới đây là một minh họa trên bộ dữ liệu R cổ điển:

> x       = faithful$waiting
> bootmed = apply(matrix(sample(x, rep=TRUE, 10^4*length(x)), nrow=10^4), 1, median)
> quantile(bootmed, c(.025, 0.975))
2.5% 97.5% 
 73.5    77

đưa ra khoảng tin cậy (73,5, 77) trên trung vị.

( Lưu ý: Corrected phiên bản, nhờ John . Tôi sử dụng trong trước đó, dẫn đến sự nhầm lẫn!) $10^3$ nrow

— Tây An
nguồn

7

Dường như nghi ngờ hẹp hòi với tôi. Sử dụng các hàm từ library(boot)xuất hiện để xác nhận điều này:> boot.ci (boot (x, function (x, i) median (x [i]), R = 1000)) Khoảng: Mức cơ bản Bình thường 95% (74,42, 78,22) (75,00) , 78,49) Tỷ lệ phần trăm BCa 95% (73,51, 77,00) (73,00, 77,00)

— vào

2

bạn hoan nghênh Xi'an ... Ngoài ra, tôi luôn thích đặt giá trị N ban đầu trong ma trận vì đó là một hằng số trên các kích cỡ bootstrap khác nhau mà tôi có thể thực hiện. Vì vậy, tôi thường đã nói ncol = length (x). Tôi thấy có ít cơ hội cho lỗi theo cách đó.

— Giăng

6

Đây chỉ là một cách không hiệu quả để tính toán các lượng tử nhị thức như trong câu trả lời của onestop .

— whuber

30

Một cách tiếp cận khác dựa trên số lượng của phân phối nhị thức.
ví dụ:

> x=faithful$waiting
> sort(x)[qbinom(c(.025,.975), length(x), 0.5)]
[1] 73 77

— trên đỉnh
nguồn

4

Tôi thích sự đơn giản của cái này ... Kết quả gần với phương thức bootstrap.

— Đaminh Comtois

1

Điều này rõ ràng là hiệu quả hơn nhiều so với bootstrapping cho trường hợp liên tục, nhưng một nhược điểm là nó không tính đến các cấp bậc bị ràng buộc. Bạn có tình cờ biết một cách giải quyết cho việc này không?

— ali_m

15

Kiểm tra thay đổi kích thước bootstrap. Tìm kiếm trợ giúp cho chức năng khởi động. Tùy thuộc vào dữ liệu của bạn với việc lấy mẫu lại, bạn có thể ước tính khoảng tin cậy cho bất cứ điều gì.

— tharen
nguồn

Đồng ý. Đây là cách tiếp cận tốt nhất. Theo tôi, được sử dụng trong khoa học y sinh.

— pmgjones

10

Cân nhắc xem xét bootstrap được làm mịn để ước tính lượng tử dân số vì boostrap thông thường dường như có vấn đề trong trường hợp đó - tài liệu tham khảo có thể được tìm thấy trong pdf này . Nếu bạn chỉ quan tâm đến Median lý thuyết, công cụ ước tính Hodges-Lehman có thể được sử dụng - như được cung cấp bởi, ví dụ, wilcox.test(..., conf.int=TRUE)chức năng của R.

— caracal

4

Và có nhiều cách tiếp cận khác: Một dựa trên thử nghiệm Wilcoxon Rank Sum được áp dụng cho một mẫu với hiệu chỉnh liên tục. Trong R, điều này có thể được cung cấp như:

wilcox.test(x,conf.level=0.95,alternative="two.sided",correct=TRUE)

Và có CI của David Olive cho trung vị được thảo luận ở đây:

CI cho trung bình

— Germaniawerks
nguồn

1

Kết quả dựa trên phương pháp qbinom không chính xác đối với các mẫu nhỏ. Giả sử x có 10 thành phần. Sau đó, qbinom (c (.025, .975), 10, .5) đưa ra 2 và 8. Khoảng kết quả không xử lý thống kê đơn hàng ở đuôi dưới đối xứng với các đuôi từ đuôi trên; bạn sẽ nhận được 2 và 9, hoặc 3 và 8. Câu trả lời đúng là 2 và 9. Bạn có thể kiểm tra đối với Proc univariate trong SAS. Bắt ở đây là bạn không cần nhiều hơn 0,25 xác suất dưới và trên; lượng tử thấp hơn không làm điều này, vì nó cho ít nhất 0,25 tại hoặc thấp hơn. Bạn được lưu ở phía dưới vì số đếm phải là 1 sẽ được ánh xạ tới thống kê thứ tự thứ hai, đếm 0 và do đó, "hủy bởi một" hủy bỏ. Việc hủy bỏ tình cờ này không xảy ra trên đầu, và vì vậy bạn nhận được câu trả lời sai ở đây. Mã sắp xếp (x) [qbinom (c (.025, .975), chiều dài (x) ,. 5) + c (0,1)] gần như hoạt động và .5 có thể được thay thế bằng các giá trị lượng tử khác để có khoảng tin cậy cho các lượng tử khác, nhưng sẽ không đúng khi tồn tại sao cho P [X <= a ] =. 025. Xem, ví dụ, Higgins, Statisitcs không đối xứng.

— John Kolass
nguồn