Cách duy nhất để biết phương sai dân số là đo toàn bộ dân số.
Tuy nhiên, đo lường toàn bộ dân số thường không khả thi; nó đòi hỏi các nguồn lực bao gồm tiền, công cụ, nhân sự và quyền truy cập. Vì lý do này, chúng tôi lấy mẫu quần thể; đó là đo một tập hợp con của dân số. Quá trình lấy mẫu phải được thiết kế cẩn thận và với mục tiêu tạo ra một quần thể mẫu đại diện cho dân số; đưa ra hai cân nhắc chính - cỡ mẫu và kỹ thuật lấy mẫu.
Ví dụ về đồ chơi: Bạn muốn ước tính phương sai về cân nặng cho dân số trưởng thành của Thụy Điển. Có khoảng 9,5 triệu người Thụy Điển nên không có khả năng bạn có thể ra ngoài và đo lường tất cả. Do đó, bạn cần phải đo dân số mẫu từ đó bạn có thể ước tính mức chênh lệch trong dân số thực sự.
Bạn đi ra ngoài để lấy mẫu dân số Thụy Điển. Để làm điều này, bạn đi và đứng ở trung tâm thành phố Stockholm, và tình cờ đứng ngay bên ngoài chuỗi cửa hàng burger hư cấu nổi tiếng của Thụy Điển Burger Kungen . Trên thực tế, trời mưa và lạnh (chắc là mùa hè) nên bạn đứng trong nhà hàng. Ở đây bạn nặng bốn người.
Cơ hội là, mẫu của bạn sẽ không phản ánh dân số của Thụy Điển rất tốt. Những gì bạn có là một mẫu người ở Stockholm, đang ở trong một nhà hàng burger. Đây là một kỹ thuật lấy mẫu kém vì có khả năng sai lệch kết quả bằng cách không đưa ra một đại diện công bằng về dân số mà bạn đang cố gắng ước tính. Hơn nữa, bạn có một cỡ mẫu nhỏ, vì vậy bạn có nguy cơ cao chọn bốn người nằm trong thái cực của dân số; hoặc rất nhẹ hoặc rất nặng. Nếu bạn đã lấy mẫu 1000 người, bạn sẽ ít có khả năng gây ra sai lệch lấy mẫu; Rất ít khả năng chọn 1000 người khác thường so với chọn bốn người khác thường. Một cỡ mẫu lớn hơn ít nhất sẽ cho bạn một ước tính chính xác hơn về trung bình và phương sai về trọng lượng giữa các khách hàng của Burger Kungen.
Biểu đồ minh họa hiệu quả của kỹ thuật lấy mẫu, phân phối màu xám có thể đại diện cho dân số Thụy Điển không ăn tại Burger Kungen (nghĩa là 85 kg), trong khi màu đỏ có thể đại diện cho dân số của khách hàng của Burger Kungen (nghĩa là 100 kg) và dấu gạch ngang màu xanh có thể là bốn người bạn lấy mẫu. Kỹ thuật lấy mẫu chính xác sẽ cần phải cân nhắc dân số một cách công bằng, và trong trường hợp này ~ 75% dân số, do đó 75% các mẫu được đo, không nên là khách hàng của Burger Kungen.
Đây là một vấn đề lớn với rất nhiều cuộc khảo sát. Ví dụ, những người có khả năng trả lời các cuộc khảo sát về sự hài lòng của khách hàng, hoặc các cuộc thăm dò ý kiến trong các cuộc bầu cử, có xu hướng được đại diện không tương xứng bởi những người có quan điểm cực đoan; những người có ý kiến ít mạnh mẽ có xu hướng dè dặt hơn trong việc thể hiện chúng.
Ví dụ, điểm kiểm tra giả thuyết là ( không phải luôn luôn ) để kiểm tra xem hai quần thể có khác nhau không. Ví dụ: Khách hàng của Burger Kungen có cân nặng hơn người Thụy Điển không ăn tại Burger Kungen không? Khả năng kiểm tra chính xác điều này phụ thuộc vào kỹ thuật lấy mẫu thích hợp và kích thước mẫu đủ.
Mã R để kiểm tra làm cho tất cả điều này xảy ra:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Các kết quả:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024