Bootstrapping có thích hợp cho dữ liệu liên tục này không?

Tôi là một người mới hoàn toàn :)

Tôi đang thực hiện một nghiên cứu với cỡ mẫu 10.000 từ dân số khoảng 745.000. Mỗi mẫu đại diện cho một "phần trăm tương tự". Phần lớn các mẫu là khoảng 97% -98% nhưng một số ít nằm trong khoảng từ 60% đến 90%, nghĩa là, sự phân phối bị sai lệch rất nhiều. Khoảng 0,6% kết quả là 0%, nhưng những kết quả này sẽ được xử lý riêng với mẫu.

Giá trị trung bình của tất cả 10.000 mẫu là 97,7% và chỉ trong Excel, StdDev là 3,20. Tôi hiểu rằng StdDev không thực sự được áp dụng ở đây vì kết quả thường không được phân phối (và vì +3.20 sẽ đưa bạn lên trên 100%!).

Câu hỏi của tôi là:

Bootstrapping (một khái niệm mới đối với tôi) có phù hợp không?
Tôi có bootstrapping đúng không :)
Một kích thước mẫu đủ là gì?

Những gì tôi đang làm là lấy lại (thay thế) 10.000 kết quả của tôi và tính toán một giá trị trung bình mới. Tôi làm điều này vài nghìn lần và lưu trữ mỗi ý nghĩa trong một mảng. Sau đó tôi tính "giá trị trung bình của phương tiện" và đây là kết quả thống kê của tôi. Để tính ra 99% CI, tôi chọn giá trị 0,5% và giá trị 99,5% và điều này tạo ra một phạm vi rất chặt chẽ: 97,4% - 98,0%. Đây có phải là kết quả hợp lệ hay tôi đang làm gì đó sai?

Đối với cỡ mẫu, tôi chỉ lấy mẫu khoảng 1,3% dân số - Tôi không biết điều này có "đủ" không. Làm thế nào để tôi biết nếu mẫu của tôi là đại diện của dân số? Lý tưởng nhất, tôi muốn tự tin 99% về một nghĩa là +/- 0,50% điểm phần trăm (nghĩa là 97,2% - 98,2%).

Cám ơn vì đã nhiệt tình hướng dẫn!

bootstrap sample-size resampling

— Glenn W
nguồn

Độ lệch chuẩn được áp dụng ở đây như bất kỳ nơi nào khác: nó cung cấp thông tin hữu ích về sự phân tán dữ liệu. Cụ thể, sd chia cho căn bậc hai của cỡ mẫu là một lỗi tiêu chuẩn: nó ước tính độ phân tán của phân phối lấy mẫu của giá trị trung bình. Hãy tính toán:

3.2 % / \sqrt{10000} = 0.032 % = 0.00032.

$3.2\% / \sqrt{10000} = 0.032\% = 0.00032.$

$\pm 0.50\%$

Mặc dù dữ liệu không được phân phối Thông thường, giá trị trung bình của mẫu rất gần với Phân phối thông thường vì kích thước mẫu quá lớn. Ví dụ, ở đây, là biểu đồ của một mẫu có cùng đặc điểm với mẫu của bạn và, ở bên phải, biểu đồ của phương tiện của một nghìn mẫu bổ sung từ cùng một quần thể.

Hình 1

Nó trông rất gần với Bình thường, phải không?

$100 - \alpha\%$ $Z_{1-\alpha/200}$ $Z_{1-\alpha/200} = 2.5758$ $99\%$

(0.977 - 2.5758 (0.032) / \sqrt{10000}, 0.977 + 2.5758 (0.032) / \sqrt{10000}) = (97.62 %, 97.78 %) .

$\left(0.977 - 2.5758(0.032) / \sqrt{10000},\ 0.977 + 2.5758(0.032) / \sqrt{10000}\right) \\ = \left(97.62\%, 97.78\%\right).$

Một kích thước mẫu đủ có thể được tìm thấy bằng cách đảo ngược mối quan hệ này để giải quyết cho kích thước mẫu. Ở đây nó cho chúng tôi biết rằng bạn cần một cỡ mẫu xung quanh

(3.2 % / (0.5 % / Z_{1 - α / 200}))^{2} \approx 272.

$(3.2\% / (0.5\% / Z_{1-\alpha/200}))^2 \approx 272.$

$272$ $9999$

Hình 2

$(97.16\%, 98.21\%)$ $(97.19\%, 98.24\%)$

$10000$ $36$ $272$

R $0.977$ $0.032$

set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample))      # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))

— whuber
nguồn

Tôi biết bài này khá cũ nhưng nó cực kỳ hữu ích. Cảm ơn vi đa chia sẻ kiên thưc của bạn.

— RDizzl3