Tôi biết đây là một chủ đề khá nóng mà không ai thực sự có thể đưa ra một câu trả lời đơn giản cho. Tuy nhiên, tôi tự hỏi nếu cách tiếp cận sau đây không thể hữu ích.
Phương thức bootstrap chỉ hữu ích nếu mẫu của bạn tuân theo nhiều hơn hoặc ít hơn (đọc chính xác) phân phối giống như dân số ban đầu. Để chắc chắn đây là trường hợp bạn cần làm cho cỡ mẫu của bạn đủ lớn. Nhưng những gì đủ lớn?
Nếu tiền đề của tôi là chính xác, bạn có cùng một vấn đề khi sử dụng định lý giới hạn trung tâm để xác định trung bình dân số. Chỉ khi kích thước mẫu của bạn đủ lớn, bạn mới có thể chắc chắn rằng dân số của phương tiện mẫu của bạn thường được phân phối (xung quanh trung bình dân số). Nói cách khác, các mẫu của bạn cần thể hiện dân số (phân phối) của bạn đủ tốt. Nhưng một lần nữa, những gì đủ lớn?
Trong trường hợp của tôi (quy trình hành chính: thời gian cần thiết để hoàn thành một nhu cầu so với lượng nhu cầu) Tôi có một dân số có phân phối đa phương thức (tất cả các nhu cầu đã kết thúc vào năm 2011) trong đó tôi chắc chắn 99% rằng nó thậm chí còn ít hơn phân phối bình thường hơn dân số (tất cả các nhu cầu đã kết thúc giữa ngày nay và một ngày trong quá khứ, lý tưởng là khoảng thời gian này càng nhỏ càng tốt) tôi muốn nghiên cứu.
Dân số năm 2011 của tôi tồn tại trong số các đơn vị đủ để tạo ra mẫu có kích thước mẫu . Tôi chọn một giá trị là , giả sử ( ). Bây giờ tôi sử dụng thử và lỗi để xác định cỡ mẫu tốt. Tôi lấy và xem liệu dân số trung bình mẫu của tôi có được phân phối bình thường hay không bằng cách sử dụng Kolmogorov-Smirnov. Nếu vậy tôi lặp lại các bước tương tự nhưng với cỡ mẫu là , nếu không lặp lại với cỡ mẫu là (v.v.).
Sau một thời gian, tôi kết luận rằng là cỡ mẫu tối thiểu tuyệt đối để có được đại diện tốt hơn hoặc ít hơn trong dân số năm 2011 của tôi. Vì tôi biết dân số quan tâm của mình (tất cả các yêu cầu đã kết thúc giữa ngày hôm nay và một ngày trong quá khứ) có ít phương sai hơn nên tôi có thể sử dụng cỡ mẫu một cách an toàn để khởi động. (Một cách gián tiếp, xác định kích thước khoảng thời gian của tôi: thời gian cần thiết để hoàn thành nhu cầu.)
Tóm lại, đây là ý tưởng của tôi. Nhưng vì tôi không phải là một nhà thống kê mà là một kỹ sư có bài học thống kê diễn ra trong những ngày suy nghĩ, tôi không thể loại trừ khả năng tôi vừa tạo ra rất nhiều rác :-). các bạn nghĩ sao? Nếu tiền đề của tôi có ý nghĩa, tôi cần chọn một lớn hơn , hoặc nhỏ hơn? Tùy thuộc vào câu trả lời của bạn (tôi có cần cảm thấy xấu hổ hay không? :-) Tôi sẽ đăng thêm một số ý tưởng thảo luận.
phản hồi về câu trả lời đầu tiên Cảm ơn bạn đã trả lời, câu trả lời của bạn rất hữu ích với tôi đặc biệt là các liên kết sách.
Nhưng tôi e rằng trong nỗ lực cung cấp thông tin của mình, tôi hoàn toàn phủ mờ câu hỏi của mình. Tôi biết rằng các mẫu bootstrap đảm nhận việc phân phối mẫu dân số. Tôi hoàn toàn theo bạn nhưng ...
Mẫu dân số ban đầu của bạn cần đủ lớn để chắc chắn vừa phải rằng phân phối mẫu dân số của bạn tương ứng (bằng) với phân bố dân số 'thực'.
Đây chỉ là một ý tưởng về cách xác định kích thước mẫu ban đầu của bạn cần lớn đến mức nào để có thể chắc chắn một cách hợp lý rằng phân phối mẫu tương ứng với phân bố dân số.
Giả sử bạn có một phân bố dân số lưỡng kim và một đỉnh lớn hơn rất nhiều so với đầu kia. Nếu cỡ mẫu của bạn là 5 thì cơ hội là lớn, cả 5 đơn vị đều có giá trị rất gần với đỉnh lớn (cơ hội để quảng cáo rút ngẫu nhiên một đơn vị ở đó là lớn nhất). Trong trường hợp này, phân phối mẫu của bạn sẽ trông đơn sắc.
Với kích thước mẫu là một trăm cơ hội phân phối mẫu của bạn cũng là bimodal lớn hơn rất nhiều !! Vấn đề với bootstrapping là bạn chỉ có một mẫu (và bạn xây dựng thêm trên mẫu đó). Nếu phân phối mẫu thực sự không tương ứng với phân phối dân số, bạn sẽ gặp rắc rối. Đây chỉ là một ý tưởng để làm cho cơ hội có 'phân phối mẫu xấu' càng thấp càng tốt mà không cần phải làm cho kích thước mẫu của bạn lớn vô cùng.