Một chỉ số tốt về mức độ vi phạm tính quy phạm và nhãn mô tả nào có thể được gắn vào chỉ mục đó?


12

Bối cảnh:

Trong một câu hỏi trước đó, @Robbie đã hỏi trong một nghiên cứu với khoảng 600 trường hợp tại sao các thử nghiệm về tính quy phạm lại cho thấy sự không bình thường đáng kể nhưng các lô đề xuất phân phối bình thường . Một số người đưa ra quan điểm rằng các bài kiểm tra quan trọng về tính quy phạm không hữu ích lắm. Với các mẫu nhỏ, các thử nghiệm như vậy không có nhiều sức mạnh để phát hiện các vi phạm nhẹ về tính quy phạm và với các mẫu lớn, chúng sẽ phát hiện các vi phạm về tính quy phạm đủ nhỏ không đáng lo ngại.

Dường như với tôi rằng vấn đề này tương tự như cuộc tranh luận xung quanh các thử nghiệm quan trọng và kích thước hiệu ứng. Nếu bạn chỉ tập trung vào các thử nghiệm quan trọng, khi bạn có các mẫu lớn, bạn có thể phát hiện các hiệu ứng nhỏ không liên quan đến mục đích thực tế và với các mẫu nhỏ bạn không có đủ năng lượng.

Trong một vài trường hợp, tôi thậm chí đã thấy sách giáo khoa khuyên mọi người rằng bạn có thể có một mẫu "quá lớn", bởi vì các hiệu ứng nhỏ sẽ có ý nghĩa thống kê.

Trong bối cảnh, về các thử nghiệm quan trọng và kích thước hiệu ứng, một giải pháp đơn giản là tập trung vào ước tính kích thước của hiệu ứng quan tâm, thay vì bị ám ảnh bởi quy tắc quyết định nhị phân về việc có hay không có hiệu lực. Khoảng tin cậy về kích thước hiệu ứng là một trong những cách tiếp cận như vậy hoặc bạn có thể áp dụng một số hình thức tiếp cận Bayes. Hơn nữa, các lĩnh vực nghiên cứu khác nhau xây dựng ý tưởng về kích thước hiệu ứng nhất định có ý nghĩa thực tế, tốt hơn hay xấu hơn, áp dụng các nhãn heuristic như "nhỏ", "trung bình" và "hiệu ứng lớn". Điều này cũng dẫn đến khuyến nghị thông minh về tối đa hóa kích thước mẫu để tối đa hóa độ chính xác trong việc ước tính một tham số quan tâm nhất định.

Điều này khiến tôi tự hỏi tại sao một cách tiếp cận tương tự dựa trên khoảng tin cậy của kích thước hiệu ứng không được sử dụng rộng rãi hơn liên quan đến thử nghiệm giả định và đặc biệt là thử nghiệm tính quy phạm.

Câu hỏi:

  • Chỉ số duy nhất tốt nhất về mức độ dữ liệu vi phạm quy tắc là gì?
  • Hoặc chỉ tốt hơn để nói về nhiều chỉ số vi phạm quy tắc (ví dụ, sai lệch, kurtosis, tỷ lệ phổ biến ngoại lệ)?
  • Làm thế nào các khoảng tin cậy có thể được tính toán (hoặc có lẽ là một cách tiếp cận Bayes) cho chỉ số?
  • Loại nhãn bằng lời nào bạn có thể chỉ định cho các điểm trên chỉ mục đó để cho biết mức độ vi phạm tính quy tắc (ví dụ: nhẹ, trung bình, mạnh, cực, v.v.)? Mục đích của các nhãn như vậy có thể là để hỗ trợ các nhà phân tích có ít kinh nghiệm hơn trong việc đào tạo trực giác của họ khi các vi phạm về tính quy phạm có vấn đề.

5
Câu hỏi hấp dẫn.
rolando2

1
@Jeromy, đó là một câu hỏi hay, nhưng hãy để tôi thêm các kiểm tra mô hình đồ họa tiêu chuẩn, như một qqplot hoặc một âm mưu còn lại trong hồi quy, trong suy nghĩ của tôi, tập trung vào "kích thước hiệu ứng" thay vì giá trị . Trong một qqplot, tôi sẽ tìm loại và độ lớn của độ lệch so với đường thẳng để hướng dẫn việc xây dựng mô hình của tôi không chỉ là phát hiện sai lệch. Tuy nhiên, có nguy cơ quá đơn giản hóa các vấn đề có thể, tuy nhiên, sẽ hữu ích khi bổ sung một qqplot với một số "hình dạng quan trọng" và hậu quả điển hình của chúng. p
NRH

1
@NRH Tôi đồng ý; đây là những gì tôi làm. Tuy nhiên, tôi thường cung cấp tư vấn thống kê cho các nhà nghiên cứu có ít kinh nghiệm hơn trong việc đánh giá mức độ phi quy tắc từ một âm mưu. Tôi nghĩ rằng một chỉ số với các nhãn định tính khác nhau có thể bổ sung cho việc đào tạo trực giác.
Jeromy Anglim

Câu trả lời:


13

A) Chỉ số duy nhất tốt nhất về mức độ dữ liệu vi phạm quy tắc là gì?

B) Hoặc tốt hơn là nói về nhiều chỉ số vi phạm quy tắc (ví dụ, độ lệch, kurtosis, tỷ lệ phổ biến ngoại lệ)?

Tôi sẽ bỏ phiếu cho B. Vi phạm khác nhau có hậu quả khác nhau. Ví dụ, các bản phân phối đối xứng, không cân xứng với đuôi nặng làm cho các TCTD của bạn rất rộng và có lẽ làm giảm sức mạnh để phát hiện bất kỳ hiệu ứng nào. Tuy nhiên, giá trị trung bình vẫn đạt giá trị "điển hình". Đối với các phân phối rất sai lệch, ví dụ trung bình, có thể không phải là một chỉ số rất hợp lý của "giá trị tiêu biểu".

C) Làm thế nào có thể tính khoảng tin cậy (hoặc có lẽ là cách tiếp cận Bayes) cho chỉ số?

Tôi không biết về thống kê Bayes, nhưng liên quan đến thử nghiệm cổ điển về tính quy tắc, tôi muốn trích dẫn Erceg-Hurn et al. (2008) [2]:

Một vấn đề khác là các bài kiểm tra giả định có giả định riêng của họ. Các xét nghiệm thông thường thường cho rằng dữ liệu là homoscedastic; các thử nghiệm về homoscedasticity cho rằng dữ liệu thường được phân phối. Nếu các giả định về tính quy tắc và tính đồng nhất bị vi phạm, tính hợp lệ của các thử nghiệm giả định có thể bị tổn hại nghiêm trọng. Các nhà thống kê nổi tiếng đã mô tả các thử nghiệm giả định (ví dụ, thử nghiệm của Levene, thử nghiệm KolmogorovTHER Smirnov) được tích hợp vào phần mềm như SPSS là thiếu sót nghiêm trọng và khuyến nghị rằng các thử nghiệm này không bao giờ được sử dụng (D'Agostino, 1986; Glass & Hopkins, 1996).

D) Loại nhãn bằng lời nào bạn có thể chỉ định cho các điểm trên chỉ mục đó để cho biết mức độ vi phạm quy tắc (ví dụ: nhẹ, trung bình, mạnh, cực, v.v.)?

Micceri (1989) [1] đã phân tích 440 bộ dữ liệu quy mô lớn trong tâm lý học. Ông đánh giá tính đối xứng và trọng lượng đuôi và các tiêu chí và nhãn xác định. Các nhãn cho phạm vi không đối xứng từ 'tương đối đối xứng' đến 'vừa phải -> cực đoan -> không đối xứng theo cấp số nhân'. Nhãn cho phạm vi trọng lượng đuôi từ 'Đồng phục -> nhỏ hơn Gaussian -> Giới thiệu về Gaussian -> Trung bình -> Cực kỳ -> Nhiễm theo cấp số nhân gấp đôi'. Mỗi phân loại dựa trên nhiều tiêu chí mạnh mẽ.

Ông phát hiện ra rằng, từ 440 bộ dữ liệu này, chỉ có 28% tương đối đối xứng và chỉ có 15% là về Gaussian liên quan đến trọng lượng đuôi. Do đó, tiêu đề tốt đẹp của bài báo:

Con kỳ lân, đường cong bình thường và các sinh vật không thể khác

Tôi đã viết một Rchức năng, tự động đánh giá các tiêu chí của Micceri và cũng in ra các nhãn:

# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
    library(fBasics)
    QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))

    n <- length(x)
    x.s <- sort(x)
    U05 <- mean(x.s[(.95*n ):n])
    L05 <- mean(x.s[1:(.05*n)])
    U20 <- mean(x.s[(.80*n):n])
    L20 <- mean(x.s[1:(.20*n)])
    U50 <- mean(x.s[(.50*n):n])
    L50 <- mean(x.s[1:(.50*n)])
    M25 <- mean(x.s[(.375*n):(.625*n)])
    Q <- (U05 - L05)/(U50 - L50)
    Q1 <- (U20 - L20)/(U50 - L50)
    Q2 <- (U05 - M25)/(M25 - L05)

    # mean/median interval
    QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
    MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))

    SKEW <- skewness(x)
    if (plot==TRUE) plot(density(x))

    tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
    symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)

    cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
                         1.8, 2.3, 2.5, 2.8, 3.3,
                        1.6, 1.85, 1.93, 2, 2.3,
                        1.9, 2.5, 2.65, 2.73, 3.3,
                        1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)

    cat.sym <- matrix(c(0.31, 0.71, 2,
                        0.05, 0.18, 0.37,
                        1.25, 1.75, 4.70), ncol=3, nrow=3)


    ts <- c()
    for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}

    ss <- c()
    for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}

    tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")

    slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")

    cat("Tail weight indexes:\n")
    print(tail_weight)
    cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
    cat("\n\nAsymmetry indexes:\n")
    print(symmetry)
    cat(paste("\nMicceri category:", slabels[max(ss)]))

    tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
    sym.cat  <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)

    invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}

Đây là một thử nghiệm cho phân phối chuẩn thông thường, một với 8 df và log-normal:t

> micceri(rnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 2.86  2.42  1.88  2.59  1.76 

Micceri category: About Gaussian 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    0.01     0.00     1.00 

Micceri category: Relatively symmetric



> micceri(rt(10000, 8))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 3.19  2.57  1.94  2.81  1.79 

Micceri category: Extreme contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
   -0.03     0.00     0.98 

Micceri category: Relatively symmetric



> micceri(rlnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 6.24  4.30  2.67  3.72  1.93 

Micceri category: Double exponential contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    5.28     0.59     8.37 

Micceri category: Exponential asymmetry

[1] Micceri, T. (1989). Con kỳ lân, đường cong bình thường và các sinh vật không thể khác. Bản tin tâm lý, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156

[2] Erceg-Hurn, DM, & Mirosevich, VM (2008). Phương pháp thống kê mạnh mẽ hiện đại: Một cách dễ dàng để tối đa hóa độ chính xác và sức mạnh của nghiên cứu của bạn. Nhà tâm lý học người Mỹ, 63 , 591-601.


3
+1, đây thực sự là một câu trả lời tuyệt vời. Tuy nhiên, tôi muốn phân minh w / 1 điểm. Bạn nêu rõ, "phân phối đối xứng, không cân xứng với đuôi nặng làm cho các TCTD của bạn rất rộng và có lẽ làm giảm sức mạnh để phát hiện bất kỳ hiệu ứng nào". Trừ khi chúng được khởi động, CI có xu hướng dựa trên tiệm cận (giả định bình thường), do đó, thực tế là dist của bạn có đuôi béo không ảnh hưởng đến chiều rộng của CI hoặc sức mạnh. Thay vào đó, điều đó có nghĩa là xác suất bảo hiểm theo kinh nghiệm sẽ không khớp với xác suất bảo hiểm giả định.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.