Ai đó có thể chỉ cho tôi một số tài liệu tham khảo cho lý thuyết về bootstrapping một mẫu lấy từ dân số có kích thước đã biết không?
Tôi thường sử dụng Bootstrap để tính khoảng tin cậy của mẫu khi kích thước quần thể được coi là lớn hơn mẫu (do đó, lựa chọn ngẫu nhiên với sự lặp lại sẽ mô phỏng tốt quá trình lấy mẫu).
Bây giờ hãy nói rằng tôi biết dân số là 1000 và tôi đã lấy mẫu 800 (và giả sử việc lấy mẫu trên thực tế là ngẫu nhiên). Lựa chọn ngẫu nhiên với sự lặp lại dường như không phù hợp. Theo nguyên tắc pigeonhole, nếu tôi thực sự lấy một mẫu ngẫu nhiên có kích thước 800 khác, đảm bảo rằng ít nhất 600 giá trị sẽ giống với mẫu ban đầu, một cái gì đó bootstrap truyền thống không thể sao chép (và có thể bỏ lỡ rất nhiều).
Giải pháp nào? Tôi nghĩ:
- Lấy mẫu 1000 với sự lặp lại, sau đó chọn ngẫu nhiên 800 (dường như là một cách tiếp cận tương đương với bootstrap truyền thống)
- Mẫu 600 không lặp lại, hơn mẫu 200 hơn sử dụng tất cả 800 mẫu có lặp lại. Điều này sẽ giải thích cho hiệu ứng tôi đã mô tả trước đó.
Bất kỳ suy nghĩ về những gì là tốt và xấu với những phương pháp tiếp cận? Hoặc bất kỳ phương pháp thay thế?