Mục 1.7.2 của Khám phá thống kê sử dụng R của Andy Fields, et all, trong khi liệt kê một ưu điểm của trung bình so với trung bình, nêu rõ:
... Giá trị trung bình có xu hướng ổn định trong các mẫu khác nhau.
Điều này sau khi giải thích nhiều đức tính trung bình, vd
... Trung vị tương đối không bị ảnh hưởng bởi các điểm cực trị ở hai đầu phân phối ...
Cho rằng trung vị tương đối không bị ảnh hưởng bởi các điểm số cực đoan, tôi đã nghĩ rằng nó sẽ ổn định hơn trên các mẫu. Vì vậy, tôi đã bối rối bởi khẳng định của tác giả. Để xác nhận tôi đã chạy một mô phỏng - Tôi đã tạo ra các số ngẫu nhiên 1M và lấy mẫu 100 số 1000 lần và tính trung bình và trung bình của từng mẫu và sau đó tính sd của các phương tiện và trung bình mẫu đó.
nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)
Như bạn có thể thấy các phương tiện được phân phối chặt chẽ hơn so với trung bình.
Trong hình ảnh đính kèm, biểu đồ màu đỏ là dành cho trung bình - như bạn có thể thấy nó thấp hơn và có đuôi béo hơn cũng xác nhận khẳng định của tác giả.
Mặc dù vậy, tôi rất bối rối vì điều này! Làm thế nào có thể trung bình ổn định hơn có xu hướng cuối cùng thay đổi nhiều hơn giữa các mẫu? Có vẻ nghịch lý! Bất kỳ hiểu biết sẽ được đánh giá cao.
rnorm
bằng rcauchy
.