Sử dụng bootstrap để lấy phân phối mẫu của phần trăm thứ nhất

Tôi có một mẫu (cỡ 250) từ dân số. Tôi không biết sự phân bố của dân số.

Câu hỏi chính: Tôi muốn có một ước lượng điểm của 1 ^st -percentile dân số, và sau đó tôi muốn có một khoảng tin cậy 95% của đánh giá quan điểm của tôi.

Ước tính điểm của tôi sẽ là mẫu ^thứ 1 . Tôi biểu thị nó . $x$

Sau đó, tôi cố gắng xây dựng khoảng tin cậy xung quanh ước tính điểm. Tôi tự hỏi nếu nó có ý nghĩa để sử dụng bootstrap ở đây. Tôi rất thiếu kinh nghiệm với bootstrap, vì vậy xin lỗi nếu tôi không sử dụng thuật ngữ thích hợp, v.v.

Đây là cách tôi đã cố gắng để làm điều đó. Tôi vẽ 1000 mẫu ngẫu nhiên với sự thay thế từ mẫu ban đầu của tôi. Tôi có được 1 ^st -percentile từ mỗi trong số họ. Vì vậy, tôi có 1000 điểm - "1 ^st -percentiles". Tôi nhìn vào sự phân phối theo kinh nghiệm của 1000 điểm này. Tôi biểu thị ý nghĩa của nó . Tôi biểu thị một "thiên vị" như sau: . Tôi lấy 2,5 ^ngày -percentile và 97,5 ^{lần thứ} percentile của 1000 điểm để có được giá thấp hơn và kết thúc cao hơn những gì tôi gọi là khoảng tin cậy 95% xung quanh 1 ^st -percentile của mẫu ban đầu. Tôi biểu thị những điểm này và . $x_{mean}$ $\text{bias}=x_{mean}-x$ $x_{0.025}$ $x_{0.975}$

Các bước còn lại cuối cùng là để thích nghi với khoảng tin cậy này là xung quanh 1 ^st -percentile của dân chứ không phải xung quanh 1 ^st -percentile của mẫu ban đầu . Do đó, tôi lấy làm đầu dưới và làm đầu trên của khoảng tin cậy 95% khoảng ước lượng điểm trong tổng số 1 của dân ^st -percentile. Khoảng thời gian cuối cùng này là những gì tôi đang tìm kiếm. $x-\text{bias}-(x_{mean}-x_{0.025})$ $x-\text{bias}+(x_{0.975}-x_{mean})$

Một yếu điểm, theo ý kiến của tôi, là cho dù nó làm cho tinh thần để sử dụng bootstrap cho 1 ^st -percentile mà là khá gần với đuôi của phân phối tiềm ẩn chưa được biết của người dân. Tôi nghi ngờ nó có thể có vấn đề; nghĩ về việc sử dụng bootstrap để xây dựng khoảng tin cậy xung quanh mức tối thiểu (hoặc tối đa).

Nhưng có lẽ cách tiếp cận này là thiếu sót? Làm ơn cho tôi biết.

BIÊN TẬP:

Có suy nghĩ về vấn đề này nhiều hơn một chút, tôi thấy rằng giải pháp của tôi ngụ ý những điều sau đây: các thực nghiệm 1 ^st phần trăm của mẫu ban đầu có thể là một ước lượng chệch của 1 ^st phần trăm dân số. Và nếu vậy, ước tính điểm phải được điều chỉnh theo độ lệch: . Mặt khác, khoảng tin cậy được điều chỉnh theo độ lệch sẽ không tương thích với ước tính điểm không được điều chỉnh theo độ lệch. Tôi cần điều chỉnh cả ước tính điểm và khoảng tin cậy hoặc không có gì trong số chúng. $x-\text{bias}$

Mặt khác, nếu tôi không cho phép ước tính bị sai lệch, tôi sẽ không phải thực hiện điều chỉnh sai lệch. Nghĩa là, tôi sẽ lấy làm ước tính điểm và làm đầu dưới và làm đầu trên của 95% khoảng tin cậy. Tôi không chắc liệu khoảng thời gian này có ý nghĩa ... $x$ $x-(x_{mean}-x_{0.025})$ $x+(x_{0.975}-x_{mean})$

Vì vậy, hiện nó có ý nghĩa gì khi cho rằng các mẫu 1 ^st percentile là một ước tính thiên vị của dân số 1 ^st phần trăm? Và nếu không, giải pháp thay thế của tôi có đúng không?

— Richard Hardy
nguồn

Điều này không trực tiếp giải quyết các câu hỏi bootstrap, nhưng nó có thể hữu ích cho bạn: onlinecourses.science.psu.edu/stat414/node/231

— shadowtalker

Bootstrap suy luận cho các thái cực của một phân phối nói chung là không rõ ràng. Khi bootstrapping n-out-of-n tối thiểu hoặc tối đa trong mẫu có kích thước , bạn có có thể bạn sẽ tái tạo quan sát cực đoan mẫu của mình và tương tự khoảng cơ hội để tái tạo quan sát cực đoan thứ hai của bạn, v.v. Bạn nhận được một phân phối xác định ít liên quan đến hình dạng của phân phối cơ bản ở đuôi. Hơn nữa, bootstrap không thể cung cấp cho bạn bất cứ điều gì dưới mức tối thiểu mẫu của bạn, ngay cả khi phân phối có hỗ trợ dưới giá trị này (như trường hợp của hầu hết các phân phối liên tục như nói bình thường). $n$ $1 - (1-1/n)^n \sim 1 - {\rm exp}(-1) = 63.2\%$ ${\rm exp}(-1) - {\rm exp}(-2)=23.3\%$

Các giải pháp rất phức tạp và dựa trên sự kết hợp của tiệm cận từ lý thuyết giá trị cực trị và lấy mẫu nhỏ hơn n quan sát (thực tế, cách ít hơn, tỷ lệ sẽ hội tụ về 0 khi ). $n\to\infty$

— StasK
nguồn

Câu trả lời là hữu ích, nhưng tôi muốn biết ý tưởng về tỷ lệ phần trăm thứ nhất ở mức tối thiểu liên quan đến hành vi bootstrap như thế nào? Tôi đoán rằng trong các mẫu rất lớn, phân vị thứ 1 có thể được coi là "xa" so với mức tối thiểu và các vấn đề được liệt kê ở trên có thể bị bỏ qua, trong khi trong các mẫu nhỏ thì phân vị thứ nhất sẽ là mức tối thiểu và các vấn đề sẽ rất quan trọng. Vì vậy, chúng tôi đang ở đâu đó ở giữa. Tôi đoán rằng cỡ mẫu 250 quan sát của tôi nên được coi là khá nhỏ trong khía cạnh này.

— Richard Hardy