Có rất nhiều câu trả lời cho câu hỏi này. Đây là một cái mà bạn có thể sẽ không thấy ở nơi nào khác vì vậy tôi đưa nó vào đây bởi vì tôi tin rằng nó phù hợp với chủ đề này. Mọi người thường tin rằng vì trung vị được coi là một biện pháp mạnh mẽ đối với các ngoại lệ nên nó cũng mạnh mẽ đối với hầu hết mọi thứ. Trên thực tế, nó cũng được coi là mạnh mẽ để thiên vị trong phân phối sai lệch. Hai tính chất mạnh mẽ của trung vị thường được dạy cùng nhau. Người ta có thể lưu ý rằng các phân phối sai lệch cơ bản cũng có xu hướng tạo ra các mẫu nhỏ trông giống như chúng có các ngoại lệ và sự khôn ngoan thông thường là người ta sử dụng trung bình trong các tình huống như vậy.
#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
}
(chỉ là một minh chứng rằng điều này bị lệch và hình dạng cơ bản)
hist(rexg(1e4, 0, 1, 1))
Bây giờ, hãy xem điều gì xảy ra nếu chúng ta lấy mẫu từ phân phối kích cỡ mẫu khác nhau này và tính toán trung bình và có nghĩa là để xem sự khác biệt giữa chúng là gì.
#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red')
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)
Như có thể thấy từ âm mưu trên, trung vị (màu đỏ) nhạy cảm hơn nhiều so với giá trị trung bình. Điều này trái với một số sự khôn ngoan thông thường liên quan đến việc sử dụng trung bình với ns thấp, đặc biệt là nếu phân phối có thể bị sai lệch. Và, nó củng cố quan điểm rằng giá trị trung bình là một giá trị đã biết trong khi trung vị nhạy cảm với các thuộc tính khác, một giá trị nếu là n.
Phân tích này tương tự như Miller, J. (1988). Một cảnh báo về thời gian phản ứng trung bình. Tạp chí Tâm lý học Thực nghiệm: Nhận thức và Hiệu suất của Con người , 14 (3): 539 trừ543.
CÁCH MẠNG
Khi nghĩ về vấn đề sai lệch, tôi đã nghĩ rằng tác động lên trung vị có thể chỉ là do trong các mẫu nhỏ, bạn có xác suất lớn hơn là trung vị nằm ở đuôi phân phối, trong khi giá trị trung bình sẽ luôn luôn được cân nhắc bởi các giá trị gần hơn với chế độ. Do đó, có lẽ nếu người ta chỉ lấy mẫu với xác suất ngoại lệ thì có thể kết quả tương tự sẽ xảy ra.
Vì vậy, tôi đã nghĩ về các tình huống có thể xảy ra ngoại lệ và các nhà thí nghiệm có thể cố gắng loại bỏ chúng.
Nếu các ngoại lệ xảy ra một cách nhất quán, chẳng hạn như một trong mỗi lần lấy mẫu dữ liệu, thì các trung vị sẽ mạnh mẽ chống lại tác động của ngoại lệ này và câu chuyện thông thường về việc sử dụng các giá trị trung bình.
Nhưng đó không phải là cách mọi thứ diễn ra.
Người ta có thể tìm thấy một ngoại lệ trong rất ít tế bào của một thí nghiệm và quyết định sử dụng trung bình thay vì trung bình trong trường hợp này. Một lần nữa, trung vị mạnh hơn nhưng tác động thực tế của nó là tương đối nhỏ vì có rất ít ngoại lệ. Đây chắc chắn sẽ là một trường hợp phổ biến hơn sau đó là trường hợp trên nhưng hiệu quả của việc sử dụng trung bình có lẽ sẽ rất nhỏ đến mức nó sẽ không quan trọng lắm.
Có lẽ phổ biến hơn các ngoại lệ có thể là một thành phần ngẫu nhiên của dữ liệu. Ví dụ, độ lệch trung bình và độ lệch chuẩn của dân số có thể là khoảng 0 nhưng có một tỷ lệ phần trăm thời gian chúng ta lấy mẫu từ dân số ngoại lệ trong đó trung bình là 3. Hãy xem xét mô phỏng sau, trong đó chỉ một dân số được lấy mẫu thay đổi mẫu kích thước.
#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
numOutliers <- sum(outPos)
y <- matrix( rnorm(N*n), ncol = N )
y[which(outPos==1)] <- rnorm(numOutliers, 4)
return(y)
}
outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red')
lines(ns,yM)
Trung vị là màu đỏ và có nghĩa là màu đen. Đây là một phát hiện tương tự như phân phối sai lệch.
Trong một ví dụ tương đối thực tế về việc sử dụng trung vị để tránh ảnh hưởng của các ngoại lệ, người ta có thể đưa ra các tình huống trong đó ước tính bị ảnh hưởng nhiều hơn khi sử dụng trung bình so với khi sử dụng giá trị trung bình.