Tờ báo Edgell và Noon đã hiểu sai.
Lý lịch
Bài viết mô tả kết quả từ bộ dữ liệu mô phỏng (xTôi,yTôi)với các tọa độ độc lập được rút ra từ các phân phối Bình thường, Hàm mũ, Đồng nhất và Cauchy. (Mặc dù nó báo cáo hai "hình thức" của Cauchy, chúng chỉ khác nhau về cách tạo ra các giá trị, đó là một sự phân tâm không liên quan.) Kích thước tập dữ liệun ("cỡ mẫu") dao động từ 5 đến 100. Đối với mỗi tập dữ liệu, hệ số tương quan mẫu Pearsonr đã được tính toán, chuyển đổi thành một t thống kê thông qua
t = rn - 21 -r2------√,
(xem Công thức (1)) và giới thiệu nó với Học sinh t phân phối với n - 2bậc tự do sử dụng phép tính hai đuôi. Các tác giả đã tiến hành10 , 000 mô phỏng độc lập cho mỗi 10 các cặp phân phối này và từng cỡ mẫu, sản xuất 10 , 000 tthống kê trong mỗi. Cuối cùng, họ lập bảng tỷ lệt số liệu thống kê có vẻ có ý nghĩa tại α = 0,05 cấp độ: đó là t thống kê ở bên ngoài α / 2 = 0,025 đuôi của học sinh t phân phối.
Thảo luận
Trước khi chúng tôi tiến hành, lưu ý rằng nghiên cứu này chỉ xem xét mức độ mạnh mẽ của một thử nghiệm về tương quan bằng không đối với tính phi quy tắc. Đó không phải là một lỗi, nhưng đó là một hạn chế quan trọng cần ghi nhớ.
Có một lỗi chiến lược quan trọng trong nghiên cứu này và một lỗi kỹ thuật rõ ràng.
Lỗi chiến lược là những phân phối này không bình thường. Cả phân phối Bình thường và Phân phối đều sẽ không gây ra bất kỳ rắc rối nào cho các hệ số tương quan: cái trước theo thiết kế và cái sau bởi vì nó không thể tạo ra các ngoại lệ (đó là nguyên nhân không tương quan Pearsonđể được mạnh mẽ). (Tuy nhiên, Bình thường phải được đưa vào làm tài liệu tham khảo để đảm bảo mọi thứ đều hoạt động tốt.) Không có phân phối nào trong bốn phân phối này là mô hình tốt cho các tình huống phổ biến khi dữ liệu có thể bị "ô nhiễm" bởi các giá trị từ phân phối với một vị trí khác hoàn toàn (chẳng hạn như khi các đối tượng thực sự đến từ các quần thể riêng biệt, chưa biết đến người thí nghiệm). Thử nghiệm nghiêm trọng nhất đến từ Cauchy, nhưng vì nó đối xứng, không thăm dò độ nhạy có khả năng nhất của hệ số tương quan với các ngoại lệ một phía .
Lỗi kỹ thuật là nghiên cứu đã không kiểm tra sự phân phối thực tế của các giá trị p: nó chỉ nhìn vào tỷ lệ hai mặt choα = 0,05.
(Mặc dù chúng ta có thể bào chữa nhiều điều đã xảy ra cách đây 32 năm do những hạn chế trong công nghệ điện toán, mọi người vẫn thường xuyên kiểm tra các bản phân phối bị ô nhiễm, phân phối gạch chéo, phân phối Lognatural và các hình thức phi quy tắc nghiêm trọng khác; khám phá một phạm vi rộng hơn về kích thước thử nghiệm thay vì giới hạn các nghiên cứu chỉ ở một kích thước.)
Sửa lỗi
Dưới đây, tôi cung cấp R
mã sẽ tái tạo hoàn toàn nghiên cứu này (trong chưa đầy một phút tính toán). Nhưng nó làm một cái gì đó nhiều hơn: nó hiển thị các phân phối mẫu của các giá trị p. Điều này khá lộ liễu, vì vậy chúng ta hãy nhảy vào và nhìn vào các biểu đồ.
Đầu tiên, đây là biểu đồ của các mẫu lớn từ ba bản phân phối mà tôi đã xem, vì vậy bạn có thể hiểu được làm thế nào chúng không bình thường.
Số mũ bị lệch (nhưng không quá khủng khiếp); Cauchy có đuôi dài (trên thực tế, một số giá trị trong số hàng ngàn đã bị loại khỏi âm mưu này để bạn có thể thấy trung tâm của nó); ô nhiễm là một tiêu chuẩn Bình thường với hỗn hợp 5% của một tiêu chuẩn Bình thường được chuyển sang10. Chúng đại diện cho các hình thức phi bình thường thường gặp trong dữ liệu.
Vì Edgell và Noon lập bảng kết quả của họ theo hàng tương ứng với các cặp phân phối và cột cho kích thước mẫu, tôi cũng làm như vậy. Chúng ta không cần phải xem xét đầy đủ các cỡ mẫu họ đã sử dụng: nhỏ nhất (5), lớn nhất (100) và một giá trị trung gian (20) sẽ làm tốt Nhưng thay vì lập bảng tần số đuôi, tôi đã vẽ sơ đồ phân phối của các giá trị p.
Lý tưởng nhất là các giá trị p sẽ có các phân phối đồng đều: tất cả các thanh phải gần với chiều cao không đổi là1, được hiển thị với một đường màu xám nét đứt trong mỗi âm mưu. Trong các ô này có 40 thanh, với khoảng cách không đổi0,025 Một nghiên cứu về α = 0,05sẽ tập trung vào chiều cao trung bình của thanh ngoài cùng bên trái và bên phải ("các thanh cực trị"). Edgell và Noon đã so sánh các mức trung bình này với tần suất lý tưởng là0,05.
Bởi vì sự khởi đầu từ tính đồng nhất là nổi bật, không cần bình luận nhiều, nhưng trước khi tôi cung cấp một số, hãy tự tìm kiếm phần còn lại của kết quả. Bạn có thể xác định kích thước mẫu trong tiêu đề - tất cả đều chạy5 - 20 - 100 trên mỗi hàng - và bạn có thể đọc các cặp phân phối trong phụ đề bên dưới mỗi đồ họa.
Điều nên tấn công bạn nhất là sự khác biệt của các thanh cực đoan so với phần còn lại của phân phối. Một nghiên cứu vềα = 0,05là đặc biệt đặc biệt ! Nó không thực sự cho chúng ta biết thử nghiệm sẽ thực hiện tốt như thế nào đối với các kích thước khác; trong thực tế, kết quả cho0,05đặc biệt đến nỗi họ sẽ đánh lừa chúng tôi về các đặc điểm của bài kiểm tra này.
Thứ hai, lưu ý rằng khi phân phối ô nhiễm có liên quan - với xu hướng chỉ tạo ra các ngoại lệ cao - phân phối giá trị p trở nên không đối xứng. Một thanh (sẽ được sử dụng để kiểm tra tương quan dương ) là cực kỳ cao trong khi đối tác của nó ở đầu kia (sẽ được sử dụng để kiểm tra tương quan âm ) là cực kỳ thấp. Tuy nhiên, trung bình, họ gần như cân bằng: hủy bỏ hai lỗi rất lớn!
Điều đặc biệt đáng báo động là các vấn đề có xu hướng trở nên tồi tệ hơn với kích thước mẫu lớn hơn.
Tôi cũng có một số lo ngại về tính chính xác của kết quả. Dưới đây là tóm tắt từ100 , 000 lặp đi lặp lại, gấp mười lần so với Edgell và Noon đã làm:
5 20 100
Exponential-Exponential 0.05398 0.05048 0.04742
Exponential-Cauchy 0.05864 0.05780 0.05331
Exponential-Contaminated 0.05462 0.05213 0.04758
Cauchy-Cauchy 0.07256 0.06876 0.04515
Cauchy-Contaminated 0.06207 0.06366 0.06045
Contaminated-Contaminated 0.05637 0.06010 0.05460
Ba trong số này - những thứ không liên quan đến phân phối bị nhiễm bẩn - tái tạo các phần của bảng giấy. Mặc dù chúng dẫn đến kết luận một cách định tính (xấu), cụ thể là các tần số này trông khá gần với mục tiêu của0,05) chúng đủ khác nhau để đặt câu hỏi về mã của tôi hoặc kết quả của bài báo. (Độ chính xác trong bài báo sẽ xấp xỉα ( 1 - α ) / n---------√≈ 0,0022, nhưng một số kết quả này khác với bài báo nhiều lần.)
Kết luận
Bằng cách không bao gồm các bản phân phối không bình thường có khả năng gây ra sự cố cho các hệ số tương quan và do không kiểm tra các mô phỏng một cách chi tiết, Edgell và Noon đã không xác định được sự thiếu mạnh mẽ rõ ràng và bỏ lỡ cơ hội để mô tả bản chất của nó. Rằng họ tìm thấy sự mạnh mẽ cho các bài kiểm tra hai mặt tạiα = 0,05cấp độ dường như gần như hoàn toàn là một tai nạn, một sự bất thường không được chia sẻ bởi các thử nghiệm ở các cấp độ khác.
Mã R
#
# Create one row (or cell) of the paper's table.
#
simulate <- function(F1, F2, sample.size, n.iter=1e4, alpha=0.05, ...) {
p <- rep(NA, length(sample.size))
i <- 0
for (n in sample.size) {
#
# Create the data.
#
x <- array(cbind(matrix(F1(n*n.iter), nrow=n),
matrix(F2(n*n.iter), nrow=n)), dim=c(n, n.iter, 2))
#
# Compute the p-values.
#
r.hat <- apply(x, 2, cor)[2, ]
t.stat <- r.hat * sqrt((n-2) / (1 - r.hat^2))
p.values <- pt(t.stat, n-2)
#
# Plot the p-values.
#
hist(p.values, breaks=seq(0, 1, 1/40), freq=FALSE,
xlab="p-values",
main=paste("Sample size", n), ...)
abline(h=1, lty=3, col="#a0a0a0")
#
# Store the frequency of p-values less than `alpha` (two-sided).
#
i <- i+1
p[i] <- mean(1 - abs(1 - 2*p.values) <= alpha)
}
return(p)
}
#
# The paper's distributions.
#
distributions <- list(N=rnorm,
U=runif,
E=rexp,
C=function(n) rt(n, 1)
)
#
# A slightly better set of distributions.
#
# distributions <- list(Exponential=rexp,
# Cauchy=function(n) rt(n, 1),
# Contaminated=function(n) rnorm(n, rbinom(n, 1, 0.05)*10))
#
# Depict the distributions.
#
par(mfrow=c(1, length(distributions)))
for (s in names(distributions)) {
x <- distributions[[s]](1e5)
x <- x[abs(x) < 20]
hist(x, breaks=seq(min(x), max(x), length.out=60),main=s, xlab="Value")
}
#
# Conduct the study.
#
set.seed(17)
sample.sizes <- c(5, 10, 15, 20, 30, 50, 100)
#sample.sizes <- c(5, 20, 100)
results <- matrix(numeric(0), nrow=0, ncol=length(sample.sizes))
colnames(results) <- sample.sizes
par(mfrow=c(2, length(sample.sizes)))
s <- names(distributions)
for (i1 in 1:length(distributions)) {
s1 <- s[i1]
F1 <- distributions[[s1]]
for (i2 in i1:length(distributions)) {
s2 <- s[i2]
F2 <- distributions[[s2]]
title <- paste(s1, s2, sep="-")
p <- simulate(F1, F2, sample.sizes, sub=title)
p <- matrix(p, nrow=1)
rownames(p) <- title
results <- rbind(results, p)
}
}
#
# Display the table.
#
print(results)
Tài liệu tham khảo
Stephen E. Edgell và Sheila M. Trưa, Ảnh hưởng của vi phạm quy tắc đối vớitKiểm tra hệ số tương quan. Bản tin tâm lý 1984, Tập 95, Số 3, 576-583.