Câu trả lời:
Theo chủ đề sinh học SE này , độ lệch chuẩn của chiều cao nam giới trưởng thành là khoảng mét, và của nữ giới là khoảng mét.0,06
Làm tròn số này đến một vị trí thập phân sẽ cho mét. Thực tế là độ lệch chuẩn được báo cáo là mét cho thấy độ lệch chuẩn dưới mét ... nhưng độ lệch chuẩn là mét vẫn phù hợp với con số được báo cáo khi nó tròn đến , nhưng sẽ chỉ ra một sự thay đổi về độ cao trong mẫu chỉ nhỏ hơn một chút so với độ biến thiên chúng ta quan sát hàng ngày trong dân số nói chung.0,0 0,05 0,048 0,0
Là con số được báo cáo tốt? Chà, sẽ hữu ích hơn nhiều nếu độ lệch chuẩn đã được báo cáo đến hai chữ số thập phân, như giá trị trung bình. Nó cũng có thể là một lỗi số hoặc làm tròn số đơn giản; ví dụ có thể đã bị cắt ngắn thành thay vì làm tròn . Nhưng có thể con số có thể đề cập đến lỗi tiêu chuẩn thay thế? Tôi thường thấy các số liệu được viết theo cách khiến nó mơ hồ cho dù độ lệch chuẩn hoặc lỗi tiêu chuẩn đang được trích dẫn - ví dụ: "giá trị trung bình mẫu là ".0,0 1,62 ( ± 0,06 )
Làm thế nào hợp lý là nó có độ lệch chuẩn chính xác để làm tròn đến đến một chữ số thập phân? Mã R sau đây mô phỏng một triệu mẫu có kích thước hai mươi được lấy từ dân số có độ lệch chuẩn (như đã được báo cáo ở nơi khác về chiều cao nữ), tìm độ lệch chuẩn cho từng mẫu, vẽ biểu đồ kết quả và tính tỷ lệ các mẫu trong đó độ lệch chuẩn quan sát được dưới :0,06 0,05
set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6
[1] 0.170691
Do đó, độ lệch chuẩn làm tròn đến là không hợp lý, xảy ra khoảng mười bảy phần trăm thời gian nếu độ cao thường được phân phối với độ lệch chuẩn thực .0,06
Theo các giả định này, chúng tôi cũng có thể tính toán, thay vì mô phỏng, xác suất đó xấp xỉ mười bảy phần trăm, như sau:
trong đó chúng tôi đã sử dụng thực tế là theo phân phối chi bình phương với độ tự do. Bạn có thể tính xác suất trong R bằng cách sử dụng ; nếu bạn thay bằng phù hợp với số liệu được công bố cho độ lệch chuẩn nam, xác suất sẽ giảm xuống còn khoảng bốn phần trăm. Như @whuber chỉ ra trong các bình luận bên dưới, loại SD "tròn đến 0" nhỏ này có nhiều khả năng xảy ra nếu nhóm được lấy mẫu từ đó đồng nhất hơn so với dân số nói chung. Nếu độ lệch chuẩn dân số là khoảngpchisq(q = 19*0.05^2/0.06^2, df = 19)
mét, sau đó xác suất đạt được độ lệch chuẩn mẫu nhỏ như vậy cũng sẽ giảm nếu kích thước mẫu lớn hơn.
curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")
curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")
pchisq(q = 19*0.005^2/0.01^2, df = 19)
chỉ đưa ra xác suất 0,04% của mẫu SD <0,005. Ngay cả dân số SD = 0,008 cho xác suất chỉ khoảng 0,8%. Nhưng SD dân số 0,007, 0,006 và 0,005 cho xác suất lần lượt là 4%, 17% (không trùng khớp!) Và 54%
Nó gần như chắc chắn là một lỗi báo cáo, trừ khi mọi người được chọn vì chiều cao đó.