Là thử nghiệm Shapiro Wilk không nhạy cảm trên các đuôi phân phối mẫu? Tôi đã đọc tuyên bố như vậy trên một tờ giấy nhưng tôi không thể hiểu tại sao từ thống kê kiểm tra của nó W. Ai đó có thể giúp tôi hiểu điều này?
Là thử nghiệm Shapiro Wilk không nhạy cảm trên các đuôi phân phối mẫu? Tôi đã đọc tuyên bố như vậy trên một tờ giấy nhưng tôi không thể hiểu tại sao từ thống kê kiểm tra của nó W. Ai đó có thể giúp tôi hiểu điều này?
Câu trả lời:
Tình hình rất phức tạp, nhưng kết quả có xu hướng ngược lại với tuyên bố này: đối với kích thước tập dữ liệu vừa phải , thử nghiệm Shapiro-Wilk nhạy hơn ở đuôi so với các nơi khác.
Tôi lấy "độ nhạy" có nghĩa là mức độ mà kết quả thay đổi khi các giá trị trong bộ dữ liệu bị nhiễu loạn. (Một cách giải thích khác là "độ nhạy" có nghĩa là về sức mạnh của thử nghiệm để phát hiện các sai lệch so với hành vi đuôi của phân phối Bình thường. ý nghĩa riêng biệt, cách giải thích thứ hai này có vẻ không phù hợp.)
Độ nhạy có thể thay đổi với tập dữ liệu. Chúng ta có nên đánh giá nó khi dữ liệu phù hợp với giả thuyết null hay khi chúng ở xa null? Cả hai đánh giá có thể là thông tin. Nhưng đối với các thử nghiệm phân phối, chúng tôi phải đối mặt với sự phức tạp rằng sự thay thế thường không thể tham số được: mặc dù giả thuyết null có thể là dữ liệu được lấy mẫu từ phân phối Bình thường, thay thế sẽ là chúng được lấy mẫu từ bất kỳ phân phối nào .
Công thức của Filliben , còn gọi là "Điểm âm mưu Weibull").
Nhìn chung, xét nghiệm SW có độ nhạy lớn hơn đáng kể so với xét nghiệm KS. Lý do cho điều này rất phức tạp, nhưng đặc biệt lưu ý rằng hai thử nghiệm phân phối không thể được so sánh chỉ dựa trên độ nhạy: bạn cũng nên xem xét các giá trị p mà tại đó các độ nhạy này được đo.
Các R
mã được sử dụng để tạo ra những kết quả sau. Nó được cấu trúc để dễ dàng sửa đổi để mở rộng nghiên cứu theo bất kỳ hướng mong muốn nào: kích thước mẫu khác nhau, phân phối dữ liệu khác nhau và thử nghiệm phân phối khác nhau.
filliben <- function(n) {
a <- 2^(-1/n); c(1-a, (2:(n-1) - 0.3175)/(n + 0.365), a)
}
sensitivity <- function(x, f, delta=1, ...) {
s <- delta * sd(x) / 2
e <- function(i) {u <- rep(0, length(x)); u[i] <- s; u}
f.x <- f(x)
sapply(1:length(x), function(i) f(x + e(i)) - f.x) / abs(s)
}
sensitivity.abs <- function(x, f, delta, ...) {
abs(sensitivity(x, f, delta/2, ...)) + abs(sensitivity(x, f, -delta/2, ...))
}
delta <- 1
beta <- function(q) qbeta(q, 1/2, 1/2) # A bimodal distribution
par(mfrow=c(3, 4))
for (n in c(4, 12, 36)) {
x <- filliben(n)
for (f.s in c("qnorm", "qunif", "qexp", "beta")) {
# Perform the tests.
y <- do.call(f.s, list(x))
y <- (y - mean(y))
cat(n, f.s, shapiro.test(y)$p.value, ks.test(y, "pnorm")$p.value, "\n")
# Compute sensitivities.
shapiro.s <- sensitivity.abs(y, function(x) shapiro.test(x)$p.value, delta)
ks.s <- sensitivity.abs(y, function(x) ks.test(x, "pnorm")$p.value, delta)
shapiro.s <- pmax(1e-12, shapiro.s) # Eliminate zeros for log plotting
ks.s <- pmax(1e-12, ks.s) # Eliminate zeros for log plotting
# Plot results.
plot(c(1,n), range(c(shapiro.s, ks.s)), type="n", log="y",
main=f.s, xlab="Rank", ylab=paste0("Sensitivity, n=", n))
points(shapiro.s, pch=16, col="Red")
points(ks.s, pch=24, bg="Blue")
lines(shapiro.s, col="#801010")
lines(ks.s, col="#101080", lty=3)
}
}
Tôi không nghĩ nó đặc biệt vô cảm; Tôi nói rằng nó nhạy hơn ở đó so với thử nghiệm Lilliefors, chẳng hạn, và tôi gặp khó khăn khi nghĩ đến một tính tốt tương đương khác của kiểm tra sự phù hợp khi sử dụng rộng rãi * mà tôi nghĩ sẽ nhạy cảm hơn với đuôi.
Nếu chúng ta xem xét các so sánh sức mạnh về mức độ tốt của các bài kiểm tra sức khỏe (trên đó có các bài báo nume), Shapiro Wilk thường thực hiện rất tốt trong nhiều tình huống, bao gồm một số tình huống mà tôi cho là liên quan đến "độ nhạy cảm với đuôi".
Chỉnh sửa: Tôi đã trải qua một số nghiên cứu so sánh sức mạnh, bao gồm chống lại các lựa chọn thay thế và đuôi nặng đối xứng với một lượng nhỏ ô nhiễm bởi các ngoại lệ (hai cách rõ ràng nhất để xem xét 'độ nhạy cảm với đuôi') và Shapiro-Wilk cực kỳ tốt, nói chung vượt trội hơn cả Anderson-Darling trong nhiệm vụ này (một nhiệm vụ mà AD nên được dự kiến sẽ xuất sắc).
[Các tác giả có nói độ nhạy này được đo như thế nào hoặc nó được so sánh với cái gì không? Bài viết có đưa ra bất kỳ lời biện minh hay bối cảnh nào cho khiếu nại không?]