Đối với bất kỳ số y 1 , y 2 , ... , y N với trung bình
ˉ y = 1Ny1,y2,…,yN, phương sai được cho bởi
σ 2y¯=1N∑i=1Nyi
Áp dụng(1)vào tập nhất địnhnsốx1,x2,...xn
mà chúng tôi mất để thuận tiện trong triển lãm có bìnhˉx=0, ta có
σ2=1
σ2σ2=1N−1∑i=1N(yi−y¯)2=1N−1∑i=1N(y2i−2yiy¯+y¯2)=1N−1[(∑i=1Ny2i)−2N(y¯)2+N(y¯)2]=1N−1∑i=1N(y2i−(y¯)2)(1)
(1)nx1,x2,…xnx¯=0
Nếu bây giờ chúng ta thêm vào một quan sát mới
xn+1để tập dữ liệu này, sau đó giá trị trung bình mới của tập dữ liệu là
1σ2=1n−1∑i=1n(x2i−(x¯)2)=1n−1∑i=1nx2i
xn+1
trong khi phương sai mới là
σ 21n+1∑i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
σ^2=1n∑i=1n+1(x2i−x2n+1(n+1)2)=1n[((n−1)σ2+x2n+1)−x2n+1n+1]=1n[(n−1)σ2+nn+1x2n+1]>σ2 only if x2n+1>n+1nσ2.
So
|xn+1| needs to be larger than
σ1+1n−−−−−√xn+1x¯σ1+1n−−−−−√, in order for
the augmented data set to have larger variance than the original data set.
See also Ray Koopman's answer which points out that the new variance is larger
than, equal to, or smaller than, the original variance according as
xn+1
differs from the mean by more than, exactly, or less than
σ1+1n−−−−−√.