A) Chỉ số duy nhất tốt nhất về mức độ dữ liệu vi phạm quy tắc là gì?
B) Hoặc tốt hơn là nói về nhiều chỉ số vi phạm quy tắc (ví dụ, độ lệch, kurtosis, tỷ lệ phổ biến ngoại lệ)?
Tôi sẽ bỏ phiếu cho B. Vi phạm khác nhau có hậu quả khác nhau. Ví dụ, các bản phân phối đối xứng, không cân xứng với đuôi nặng làm cho các TCTD của bạn rất rộng và có lẽ làm giảm sức mạnh để phát hiện bất kỳ hiệu ứng nào. Tuy nhiên, giá trị trung bình vẫn đạt giá trị "điển hình". Đối với các phân phối rất sai lệch, ví dụ trung bình, có thể không phải là một chỉ số rất hợp lý của "giá trị tiêu biểu".
C) Làm thế nào có thể tính khoảng tin cậy (hoặc có lẽ là cách tiếp cận Bayes) cho chỉ số?
Tôi không biết về thống kê Bayes, nhưng liên quan đến thử nghiệm cổ điển về tính quy tắc, tôi muốn trích dẫn Erceg-Hurn et al. (2008) [2]:
Một vấn đề khác là các bài kiểm tra giả định có giả định riêng của họ. Các xét nghiệm thông thường thường cho rằng dữ liệu là homoscedastic; các thử nghiệm về homoscedasticity cho rằng dữ liệu thường được phân phối. Nếu các giả định về tính quy tắc và tính đồng nhất bị vi phạm, tính hợp lệ của các thử nghiệm giả định có thể bị tổn hại nghiêm trọng. Các nhà thống kê nổi tiếng đã mô tả các thử nghiệm giả định (ví dụ, thử nghiệm của Levene, thử nghiệm KolmogorovTHER Smirnov) được tích hợp vào phần mềm như SPSS là thiếu sót nghiêm trọng và khuyến nghị rằng các thử nghiệm này không bao giờ được sử dụng (D'Agostino, 1986; Glass & Hopkins, 1996).
D) Loại nhãn bằng lời nào bạn có thể chỉ định cho các điểm trên chỉ mục đó để cho biết mức độ vi phạm quy tắc (ví dụ: nhẹ, trung bình, mạnh, cực, v.v.)?
Micceri (1989) [1] đã phân tích 440 bộ dữ liệu quy mô lớn trong tâm lý học. Ông đánh giá tính đối xứng và trọng lượng đuôi và các tiêu chí và nhãn xác định. Các nhãn cho phạm vi không đối xứng từ 'tương đối đối xứng' đến 'vừa phải -> cực đoan -> không đối xứng theo cấp số nhân'. Nhãn cho phạm vi trọng lượng đuôi từ 'Đồng phục -> nhỏ hơn Gaussian -> Giới thiệu về Gaussian -> Trung bình -> Cực kỳ -> Nhiễm theo cấp số nhân gấp đôi'. Mỗi phân loại dựa trên nhiều tiêu chí mạnh mẽ.
Ông phát hiện ra rằng, từ 440 bộ dữ liệu này, chỉ có 28% tương đối đối xứng và chỉ có 15% là về Gaussian liên quan đến trọng lượng đuôi. Do đó, tiêu đề tốt đẹp của bài báo:
Con kỳ lân, đường cong bình thường và các sinh vật không thể khác
Tôi đã viết một R
chức năng, tự động đánh giá các tiêu chí của Micceri và cũng in ra các nhãn:
# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
library(fBasics)
QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))
n <- length(x)
x.s <- sort(x)
U05 <- mean(x.s[(.95*n ):n])
L05 <- mean(x.s[1:(.05*n)])
U20 <- mean(x.s[(.80*n):n])
L20 <- mean(x.s[1:(.20*n)])
U50 <- mean(x.s[(.50*n):n])
L50 <- mean(x.s[1:(.50*n)])
M25 <- mean(x.s[(.375*n):(.625*n)])
Q <- (U05 - L05)/(U50 - L50)
Q1 <- (U20 - L20)/(U50 - L50)
Q2 <- (U05 - M25)/(M25 - L05)
# mean/median interval
QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))
SKEW <- skewness(x)
if (plot==TRUE) plot(density(x))
tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)
cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
1.8, 2.3, 2.5, 2.8, 3.3,
1.6, 1.85, 1.93, 2, 2.3,
1.9, 2.5, 2.65, 2.73, 3.3,
1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)
cat.sym <- matrix(c(0.31, 0.71, 2,
0.05, 0.18, 0.37,
1.25, 1.75, 4.70), ncol=3, nrow=3)
ts <- c()
for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}
ss <- c()
for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}
tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")
slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")
cat("Tail weight indexes:\n")
print(tail_weight)
cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
cat("\n\nAsymmetry indexes:\n")
print(symmetry)
cat(paste("\nMicceri category:", slabels[max(ss)]))
tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
sym.cat <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)
invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}
Đây là một thử nghiệm cho phân phối chuẩn thông thường, một với 8 df và log-normal:t
> micceri(rnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
2.86 2.42 1.88 2.59 1.76
Micceri category: About Gaussian
Asymmetry indexes:
Skewness MM.75% Q2
0.01 0.00 1.00
Micceri category: Relatively symmetric
> micceri(rt(10000, 8))
Tail weight indexes:
97.5% 95% 90% Q Q1
3.19 2.57 1.94 2.81 1.79
Micceri category: Extreme contamination
Asymmetry indexes:
Skewness MM.75% Q2
-0.03 0.00 0.98
Micceri category: Relatively symmetric
> micceri(rlnorm(10000))
Tail weight indexes:
97.5% 95% 90% Q Q1
6.24 4.30 2.67 3.72 1.93
Micceri category: Double exponential contamination
Asymmetry indexes:
Skewness MM.75% Q2
5.28 0.59 8.37
Micceri category: Exponential asymmetry
[1] Micceri, T. (1989). Con kỳ lân, đường cong bình thường và các sinh vật không thể khác. Bản tin tâm lý, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156
[2] Erceg-Hurn, DM, & Mirosevich, VM (2008). Phương pháp thống kê mạnh mẽ hiện đại: Một cách dễ dàng để tối đa hóa độ chính xác và sức mạnh của nghiên cứu của bạn. Nhà tâm lý học người Mỹ, 63 , 591-601.