Tôi là một người mới hoàn toàn :)
Tôi đang thực hiện một nghiên cứu với cỡ mẫu 10.000 từ dân số khoảng 745.000. Mỗi mẫu đại diện cho một "phần trăm tương tự". Phần lớn các mẫu là khoảng 97% -98% nhưng một số ít nằm trong khoảng từ 60% đến 90%, nghĩa là, sự phân phối bị sai lệch rất nhiều. Khoảng 0,6% kết quả là 0%, nhưng những kết quả này sẽ được xử lý riêng với mẫu.
Giá trị trung bình của tất cả 10.000 mẫu là 97,7% và chỉ trong Excel, StdDev là 3,20. Tôi hiểu rằng StdDev không thực sự được áp dụng ở đây vì kết quả thường không được phân phối (và vì +3.20 sẽ đưa bạn lên trên 100%!).
Câu hỏi của tôi là:
- Bootstrapping (một khái niệm mới đối với tôi) có phù hợp không?
- Tôi có bootstrapping đúng không :)
- Một kích thước mẫu đủ là gì?
Những gì tôi đang làm là lấy lại (thay thế) 10.000 kết quả của tôi và tính toán một giá trị trung bình mới. Tôi làm điều này vài nghìn lần và lưu trữ mỗi ý nghĩa trong một mảng. Sau đó tôi tính "giá trị trung bình của phương tiện" và đây là kết quả thống kê của tôi. Để tính ra 99% CI, tôi chọn giá trị 0,5% và giá trị 99,5% và điều này tạo ra một phạm vi rất chặt chẽ: 97,4% - 98,0%. Đây có phải là kết quả hợp lệ hay tôi đang làm gì đó sai?
Đối với cỡ mẫu, tôi chỉ lấy mẫu khoảng 1,3% dân số - Tôi không biết điều này có "đủ" không. Làm thế nào để tôi biết nếu mẫu của tôi là đại diện của dân số? Lý tưởng nhất, tôi muốn tự tin 99% về một nghĩa là +/- 0,50% điểm phần trăm (nghĩa là 97,2% - 98,2%).
Cám ơn vì đã nhiệt tình hướng dẫn!