Trong một bài viết tôi đã tìm thấy công thức cho độ lệch chuẩn của cỡ mẫu
Trong đó là phạm vi trung bình của các mẫu phụ (cỡ ) từ mẫu chính. Số được tính như thế nào? Đây là con số chính xác?
Trong một bài viết tôi đã tìm thấy công thức cho độ lệch chuẩn của cỡ mẫu
Trong đó là phạm vi trung bình của các mẫu phụ (cỡ ) từ mẫu chính. Số được tính như thế nào? Đây là con số chính xác?
Câu trả lời:
Trong một mẫu gồm n giá trị độc lập từ phân phối F với pdf f , pdf của phân phối chung của các cực trị min ( x ) = x [ 1 ] và max ( x ) = x [ n ] tỷ lệ với
(Hằng số tỷ lệ là nghịch đảo của hệ số đa thức . Theo trực giác, bản PDF chung này thể hiện cơ hội tìm giá trị nhỏ nhất trong phạm vi[x[1],x[1]+dx[1]), giá trị lớn nhất trong phạm vi[x[n],x[n]+dx[n]và giữa values between them within the range . When is continuous, we may replace that middle range by , thereby neglecting only an "infinitesimal" amount of probability. The associated probabilities, to first order in the differentials, are and respectively, now making it obvious where the formula comes from.)
Taking the expectation of the range gives for any Normal distribution with standard deviation and . The expected range as a multiple of depends on the sample size :
These values were computed by numerically integrating over , with set to the standard Normal CDF, and dividing by the standard deviation of (which is just ).
Một mối quan hệ nhân tương tự giữa phạm vi dự kiến và độ lệch chuẩn sẽ giữ cho bất kỳ họ phân phối ở quy mô địa điểm nào, bởi vì đó là một thuộc tính của shape of the distribution alone. For instance, here is a comparable plot for uniform distributions:
và phân phối theo cấp số nhân:
where is Euler's constant and is the "polygamma" function, the logarithmic derivative of Euler's Gamma function.
Although they differ (because these distributions display a wide range of shapes), the three roughly agree around , showing that the multiplier does not depend heavily on the shape and therefore can serve as an omnibus, robust assessment of the standard deviation when ranges of small subsamples are known. (Indeed, the very heavy-tailed Student distribution with three degrees of freedom still has a multiplier around for , not far at all from .)
That approximation is very close to the true sample standard deviation. I wrote a quick R script to illustrate it:
x = sample(1:10000,6000,replace=TRUE)
B = 100000
R = rep(NA,B)
for(i in 1:B){
samp = sample(x,6)
R[i] = max(samp)-min(samp)
}
mean(R)/2.534
sd(x)
which yields:
> mean(R)/2.534
[1] 2819.238
>
> sd(x)
[1] 2880.924
Now I am not sure (yet) why this works but it at least looks like (at face value) that the approximation is a decent one.
Edit: See @Whuber's exceptional comment (above) on why this works
mean(R)/2.474
equal to , very close to sd(x)
.