Tôi còn khá mới với số liệu thống kê (một số ít các khóa học Uni cấp độ mới bắt đầu) và đã tự hỏi về việc lấy mẫu từ các bản phân phối chưa biết. Cụ thể, nếu bạn không có ý tưởng về phân phối cơ bản, có cách nào để "đảm bảo" rằng bạn có được một mẫu đại diện không?
Ví dụ để minh họa: giả sử bạn đang cố gắng tìm ra sự phân phối của cải toàn cầu. Đối với bất kỳ cá nhân nào, bạn bằng cách nào đó có thể tìm ra sự giàu có chính xác của họ; nhưng bạn không thể "lấy mẫu" từng người trên Trái đất. Vì vậy, giả sử bạn lấy mẫu n = 1000 người một cách ngẫu nhiên.
Nếu mẫu của bạn không bao gồm Bill Gates, bạn có thể nghĩ rằng không có tỷ phú nào tồn tại.
Nếu bạn lấy mẫu bao gồm Bill Gates, bạn có thể nghĩ tỷ phú phổ biến hơn thực tế.
Trong cả hai trường hợp, bạn thực sự không thể biết tỷ phú phổ biến hay hiếm như thế nào; bạn thậm chí có thể không biết liệu có tồn tại hay không.
Có một cơ chế lấy mẫu tốt hơn tồn tại cho một trường hợp như thế này?
Làm thế nào bạn sẽ nói với một tiên nghiệm nên sử dụng quy trình lấy mẫu nào (và cần bao nhiêu mẫu)?
Đối với tôi, dường như bạn có thể phải "lấy mẫu" một tỷ lệ lớn dân số để biết, với bất cứ điều gì tiếp cận với sự chắc chắn hợp lý, các tỷ phú phổ biến hay hiếm trên hành tinh này và điều này là do sự phân phối cơ bản hơi khó khăn để làm việc với.