Tính mạnh mẽ của kiểm tra tương quan với tính phi chuẩn


7

Tôi đang cố gắng dung hòa hai tuyên bố dường như trái ngược nhau về sự mạnh mẽ đối với tính phi quy tắc của thống kê kiểm tra tương quan của Pearson (trong đó null có nghĩa là "không tương quan").

Câu trả lời CV này cho biết:

Rất không mạnh mẽ.

Cẩm nang sinh học này nói:

[...] Nhiều nghiên cứu mô phỏng đã chỉ ra rằng hồi quy tuyến tính và tương quan không nhạy cảm với tính phi chuẩn; một hoặc cả hai biến đo lường có thể rất không bình thường và xác suất dương tính giả (P <0,05, khi giả thuyết null là đúng) vẫn còn khoảng 0,05 ( Edgell và Noon 1984 , và tham chiếu ở đó).

Tôi đang thiếu gì?


3
Hai nguồn khác nhau mà bạn trích dẫn dường như gắn các ý nghĩa khác nhau với khái niệm "khởi hành từ sự bình thường". Là một mẫu thu được từ một phân phối bình thường nhưng trong đó một quan sát duy nhất được thay thế bằng một giá trị tùy ý được coi là tạo thành một dạng sai lệch chấp nhận được so với tính chuẩn? Nếu vậy, thì rõ ràng cẩm nang sinh học (và giấy Edgell và Noon được tham chiếu) có thể dễ dàng bị bỏ qua.
user603

@ user603 Hồi quy không theo bất kỳ cách nào yêu cầu phân phối bình thường của một hoặc cả hai biến: giả định được xây dựng ngay trong hình thức toán học: Y=β0+βXX+ε Ở đâu εN(0,σ). Lưu ý rằng phần cuối cùng: đó là phần dư không phải là biến được phân phối bình thường. Họ xác minh theo kinh nghiệm: (1) mô phỏngXsử dụng phân phối đồng đều từ, oh, nói 0 đến 100; (2) mô phỏngY=3+0.5×X+N(0,1); (3) hồi quyY trên X và phục hồi β03,βX0.5. Bây giờ hãy xem biểu đồ củaXY.
Alexis

1
@Alexis: Tôi không chắc là tôi hiểu mối liên hệ giữa bình luận của bạn và của tôi. Tôi không nghĩ rằng tôi đã tuyên bố bất cứ điều gì về hồi quy (hoặc quy tắc)
user603

@ user603 Khá chắc chắn rằng bạn đã đưa ra tuyên bố về Edgell và Noon trích dẫn đặc biệt là bit này: "nhiều nghiên cứu mô phỏng đã chỉ ra rằng hồi quy tuyến tính và tương quan không nhạy cảm với tính không quy tắc; một hoặc cả hai biến đo lường có thể rất không bình thường" - đó là về chính xác đó.
Alexis

Câu trả lời:


9

Tờ báo Edgell và Noon đã hiểu sai.

Lý lịch

Bài viết mô tả kết quả từ bộ dữ liệu mô phỏng (xTôi,yTôi)với các tọa độ độc lập được rút ra từ các phân phối Bình thường, Hàm mũ, Đồng nhất và Cauchy. (Mặc dù nó báo cáo hai "hình thức" của Cauchy, chúng chỉ khác nhau về cách tạo ra các giá trị, đó là một sự phân tâm không liên quan.) Kích thước tập dữ liệun ("cỡ mẫu") dao động từ 5 đến 100. Đối với mỗi tập dữ liệu, hệ số tương quan mẫu Pearsonr đã được tính toán, chuyển đổi thành một t thống kê thông qua

t= =rn-21-r2,

(xem Công thức (1)) và giới thiệu nó với Học sinh t phân phối với n-2bậc tự do sử dụng phép tính hai đuôi. Các tác giả đã tiến hành10,000 mô phỏng độc lập cho mỗi 10 các cặp phân phối này và từng cỡ mẫu, sản xuất 10,000 tthống kê trong mỗi. Cuối cùng, họ lập bảng tỷ lệt số liệu thống kê có vẻ có ý nghĩa tại α= =0,05 cấp độ: đó là t thống kê ở bên ngoài α/2= =0,025 đuôi của học sinh t phân phối.

Thảo luận

Trước khi chúng tôi tiến hành, lưu ý rằng nghiên cứu này chỉ xem xét mức độ mạnh mẽ của một thử nghiệm về tương quan bằng không đối với tính phi quy tắc. Đó không phải là một lỗi, nhưng đó là một hạn chế quan trọng cần ghi nhớ.

Có một lỗi chiến lược quan trọng trong nghiên cứu này và một lỗi kỹ thuật rõ ràng.

Lỗi chiến lược là những phân phối này không bình thường. Cả phân phối Bình thường và Phân phối đều sẽ không gây ra bất kỳ rắc rối nào cho các hệ số tương quan: cái trước theo thiết kế và cái sau bởi vì nó không thể tạo ra các ngoại lệ (đó là nguyên nhân không tương quan Pearsonđể được mạnh mẽ). (Tuy nhiên, Bình thường phải được đưa vào làm tài liệu tham khảo để đảm bảo mọi thứ đều hoạt động tốt.) Không có phân phối nào trong bốn phân phối này là mô hình tốt cho các tình huống phổ biến khi dữ liệu có thể bị "ô nhiễm" bởi các giá trị từ phân phối với một vị trí khác hoàn toàn (chẳng hạn như khi các đối tượng thực sự đến từ các quần thể riêng biệt, chưa biết đến người thí nghiệm). Thử nghiệm nghiêm trọng nhất đến từ Cauchy, nhưng vì nó đối xứng, không thăm dò độ nhạy có khả năng nhất của hệ số tương quan với các ngoại lệ một phía .

Lỗi kỹ thuật là nghiên cứu đã không kiểm tra sự phân phối thực tế của các giá trị p:chỉ nhìn vào tỷ lệ hai mặt choα= =0,05.

(Mặc dù chúng ta có thể bào chữa nhiều điều đã xảy ra cách đây 32 năm do những hạn chế trong công nghệ điện toán, mọi người vẫn thường xuyên kiểm tra các bản phân phối bị ô nhiễm, phân phối gạch chéo, phân phối Lognatural và các hình thức phi quy tắc nghiêm trọng khác; khám phá một phạm vi rộng hơn về kích thước thử nghiệm thay vì giới hạn các nghiên cứu chỉ ở một kích thước.)

Sửa lỗi

Dưới đây, tôi cung cấp Rmã sẽ tái tạo hoàn toàn nghiên cứu này (trong chưa đầy một phút tính toán). Nhưng nó làm một cái gì đó nhiều hơn: nó hiển thị các phân phối mẫu của các giá trị p. Điều này khá lộ liễu, vì vậy chúng ta hãy nhảy vào và nhìn vào các biểu đồ.

Đầu tiên, đây là biểu đồ của các mẫu lớn từ ba bản phân phối mà tôi đã xem, vì vậy bạn có thể hiểu được làm thế nào chúng không bình thường.

Hình 1

Số mũ bị lệch (nhưng không quá khủng khiếp); Cauchy có đuôi dài (trên thực tế, một số giá trị trong số hàng ngàn đã bị loại khỏi âm mưu này để bạn có thể thấy trung tâm của nó); ô nhiễm là một tiêu chuẩn Bình thường với hỗn hợp 5% của một tiêu chuẩn Bình thường được chuyển sang10. Chúng đại diện cho các hình thức phi bình thường thường gặp trong dữ liệu.

Vì Edgell và Noon lập bảng kết quả của họ theo hàng tương ứng với các cặp phân phối và cột cho kích thước mẫu, tôi cũng làm như vậy. Chúng ta không cần phải xem xét đầy đủ các cỡ mẫu họ đã sử dụng: nhỏ nhất (5), lớn nhất (100) và một giá trị trung gian (20) sẽ làm tốt Nhưng thay vì lập bảng tần số đuôi, tôi đã vẽ sơ đồ phân phối của các giá trị p.

Hình 2

Lý tưởng nhất là các giá trị p sẽ có các phân phối đồng đều: tất cả các thanh phải gần với chiều cao không đổi là1, được hiển thị với một đường màu xám nét đứt trong mỗi âm mưu. Trong các ô này có 40 thanh, với khoảng cách không đổi0,025 Một nghiên cứu về α= =0,05sẽ tập trung vào chiều cao trung bình của thanh ngoài cùng bên trái và bên phải ("các thanh cực trị"). Edgell và Noon đã so sánh các mức trung bình này với tần suất lý tưởng là0,05.

Bởi vì sự khởi đầu từ tính đồng nhất là nổi bật, không cần bình luận nhiều, nhưng trước khi tôi cung cấp một số, hãy tự tìm kiếm phần còn lại của kết quả. Bạn có thể xác định kích thước mẫu trong tiêu đề - tất cả đều chạy5-20-100 trên mỗi hàng - và bạn có thể đọc các cặp phân phối trong phụ đề bên dưới mỗi đồ họa.

Hình 3

hinh 4

Điều nên tấn công bạn nhất là sự khác biệt của các thanh cực đoan so với phần còn lại của phân phối. Một nghiên cứu vềα= =0,05đặc biệt đặc biệt ! Nó không thực sự cho chúng ta biết thử nghiệm sẽ thực hiện tốt như thế nào đối với các kích thước khác; trong thực tế, kết quả cho0,05đặc biệt đến nỗi họ sẽ đánh lừa chúng tôi về các đặc điểm của bài kiểm tra này.

Thứ hai, lưu ý rằng khi phân phối ô nhiễm có liên quan - với xu hướng chỉ tạo ra các ngoại lệ cao - phân phối giá trị p trở nên không đối xứng. Một thanh (sẽ được sử dụng để kiểm tra tương quan dương ) là cực kỳ cao trong khi đối tác của nó ở đầu kia (sẽ được sử dụng để kiểm tra tương quan âm ) là cực kỳ thấp. Tuy nhiên, trung bình, họ gần như cân bằng: hủy bỏ hai lỗi rất lớn!

Điều đặc biệt đáng báo động là các vấn đề có xu hướng trở nên tồi tệ hơn với kích thước mẫu lớn hơn.

Tôi cũng có một số lo ngại về tính chính xác của kết quả. Dưới đây là tóm tắt từ100,000 lặp đi lặp lại, gấp mười lần so với Edgell và Noon đã làm:

                                5      20     100
Exponential-Exponential   0.05398 0.05048 0.04742
Exponential-Cauchy        0.05864 0.05780 0.05331
Exponential-Contaminated  0.05462 0.05213 0.04758
Cauchy-Cauchy             0.07256 0.06876 0.04515
Cauchy-Contaminated       0.06207 0.06366 0.06045
Contaminated-Contaminated 0.05637 0.06010 0.05460

Ba trong số này - những thứ không liên quan đến phân phối bị nhiễm bẩn - tái tạo các phần của bảng giấy. Mặc dù chúng dẫn đến kết luận một cách định tính (xấu), cụ thể là các tần số này trông khá gần với mục tiêu của0,05) chúng đủ khác nhau để đặt câu hỏi về mã của tôi hoặc kết quả của bài báo. (Độ chính xác trong bài báo sẽ xấp xỉα(1-α)/n0,0022, nhưng một số kết quả này khác với bài báo nhiều lần.)

Kết luận

Bằng cách không bao gồm các bản phân phối không bình thường có khả năng gây ra sự cố cho các hệ số tương quan và do không kiểm tra các mô phỏng một cách chi tiết, Edgell và Noon đã không xác định được sự thiếu mạnh mẽ rõ ràng và bỏ lỡ cơ hội để mô tả bản chất của nó. Rằng họ tìm thấy sự mạnh mẽ cho các bài kiểm tra hai mặt tạiα= =0,05cấp độ dường như gần như hoàn toàn là một tai nạn, một sự bất thường không được chia sẻ bởi các thử nghiệm ở các cấp độ khác.


Mã R

#
# Create one row (or cell) of the paper's table.
#
simulate <- function(F1, F2, sample.size, n.iter=1e4, alpha=0.05, ...) {
  p <- rep(NA, length(sample.size))
  i <- 0
  for (n in sample.size) {
    #
    # Create the data.
    #
    x <- array(cbind(matrix(F1(n*n.iter), nrow=n),
                     matrix(F2(n*n.iter), nrow=n)), dim=c(n, n.iter, 2))
    #
    # Compute the p-values.
    #
    r.hat <- apply(x, 2, cor)[2, ]
    t.stat <- r.hat * sqrt((n-2) / (1 - r.hat^2))
    p.values <- pt(t.stat, n-2)
    #
    # Plot the p-values.
    #
    hist(p.values, breaks=seq(0, 1, 1/40), freq=FALSE,
         xlab="p-values",
         main=paste("Sample size", n), ...)
    abline(h=1, lty=3, col="#a0a0a0")
    #
    # Store the frequency of p-values less than `alpha` (two-sided).
    #
    i <- i+1
    p[i] <- mean(1 - abs(1 - 2*p.values) <= alpha)
  }
  return(p)
}
#
# The paper's distributions.
#
distributions <- list(N=rnorm,
                      U=runif,
                      E=rexp,
                      C=function(n) rt(n, 1)
)
#
# A slightly better set of distributions.
#
# distributions <- list(Exponential=rexp,
#                       Cauchy=function(n) rt(n, 1),
#                       Contaminated=function(n) rnorm(n, rbinom(n, 1, 0.05)*10))
#
# Depict the distributions.
#
par(mfrow=c(1, length(distributions)))
for (s in names(distributions)) {
  x <- distributions[[s]](1e5)
  x <- x[abs(x) < 20]
  hist(x, breaks=seq(min(x), max(x), length.out=60),main=s, xlab="Value")
}
#
# Conduct the study.
#
set.seed(17)
sample.sizes <- c(5, 10, 15, 20, 30, 50, 100)
#sample.sizes <- c(5, 20, 100)

results <- matrix(numeric(0), nrow=0, ncol=length(sample.sizes))
colnames(results) <- sample.sizes
par(mfrow=c(2, length(sample.sizes)))
s <- names(distributions)
for (i1 in 1:length(distributions)) {
  s1 <- s[i1]
  F1 <- distributions[[s1]]
  for (i2 in i1:length(distributions)) {
    s2 <- s[i2]
    F2 <- distributions[[s2]]
    title <- paste(s1, s2, sep="-")
    p <- simulate(F1, F2, sample.sizes, sub=title)
    p <- matrix(p, nrow=1)
    rownames(p) <- title
    results <- rbind(results, p)
  }
}
#
# Display the table.
#
print(results)

Tài liệu tham khảo

Stephen E. Edgell và Sheila M. Trưa, Ảnh hưởng của vi phạm quy tắc đối vớitKiểm tra hệ số tương quan. Bản tin tâm lý 1984, Tập 95, Số 3, 576-583.


Ồ Vì vậy, không chỉ hai tác giả của bài báo, mà nhiều người làm việc trong lĩnh vực này ngày nay (bao gồm cả tác giả của blog và Sổ tay Sinh học tôi đã đề cập) có một sự hiểu lầm thực sự đáng tiếc về kỹ thuật thực sự quan trọng đối với nghiên cứu của họ.
tối đa

Chừng nào nghiên cứu chỉ liên quan đến một thử nghiệm như vậy trong mỗi bài báo được xuất bản (do đó việc sửa chữa nhiều so sánh là không cần thiết), sẽ không có cơ hội vượt quá nghiêm trọng, và α= =0,05là ngưỡng ý nghĩa, bạn có thể ổn. Tuy nhiên, có nhiều lý do chính đáng để hầu hết các sách giáo khoa về hồi quy và tương quan được viết từ đầu những năm 1980 đã bao gồm các phần chính về xác định, phát hiện và đối phó với tính phi quy tắc. Trong thực tế, toàn bộ các trường con của thống kê (ước tính mạnh mẽ và EDA) được phát triển để đối phó với tình huống này đã đến và đi trong thời gian đó.
whuber

1
+1 Đây là một câu trả lời tuyệt vời. Một nitlog nhỏ: bạn nói rằng "một nghiên cứu về α = 0,05 là đặc biệt đặc biệt!" tạo ấn tượng mà các tác giả đã xem xét khácα, họ sẽ quan sát thấy các kết quả hoàn toàn khác nhau (ngay cả theo phương pháp giống hệt nhau). Nhưng không rõ trong biểu đồ của bạn rằng đây sẽ là trường hợp ví dụα= =0,01 hoặc là 0,001hoặc các giá trị chung khác, vì không có đủ độ phân giải. Nếu kết quả cho các bảng chữ cái này giống nhau (kích thước thử nghiệm thực tế từ 0,4 đến 0,8) thìα= =0,05có lẽ không đặc biệt "đặc biệt".
amip

1
@amoeba Bạn hoàn toàn đúng: đó là một tập hợp quan sát tốt. Tuy nhiên, tôi tin rằng bạn sẽ thấy rằng các xu hướng sắc nét xuất hiện gần đuôi ở độ phân giải này thậm chí còn mạnh hơn khi được hiển thị ở độ phân giải cao hơn. Tất nhiên điều này sẽ yêu cầu mô phỏng lớn hơn - lớn hơn ít nhất 20 lần. Điều đó là khả thi cho bất kỳ người quan tâm để thực hiện.
whuber

3

Vì whuber đã đưa ra một phân tích toàn diện về hành vi của các phân phối giá trị p dưới một giá trị không tương quan bằng 0, tôi sẽ tập trung ý kiến ​​của mình ở nơi khác.

  1. Sự mạnh mẽ liên quan đến các bài kiểm tra giả thuyết không chỉ có nghĩa là mức độ mạnh mẽ (tiến gần đến mức ý nghĩa mong muốn). Bên cạnh việc chỉ nhìn vào một cấp độ và chỉ ở các thử nghiệm hai mặt, nghiên cứu dường như đã bỏ qua tác động đến quyền lực . Không có nhiều điểm để nói rằng bạn đang giữ tỷ lệ từ chối 5% dưới mức null nếu bạn cũng kết thúc với tỷ lệ từ chối 5% * đối với độ lệch lớn so với null.

    * (hoặc có thể tệ hơn, nếu kết thúc thử nghiệm bị sai lệch theo các bản phân phối không bình thường cho một số lựa chọn thay thế)

    Sức mạnh điều tra có liên quan nhiều hơn đáng kể. Để bắt đầu, với các phân phối này, bạn phải xem xét việc chỉ định một số copula hoặc copote, có lẽ gần với mối quan hệ tuyến tính trong các biến không được dịch và chắc chắn gần với một số giá trị được chỉ định cho hệ số tương quan dân số. Bạn sẽ phải xem xét một số kích cỡ hiệu ứng (ít nhất), và có thể cả sự phụ thuộc tiêu cực và tích cực.

    Tuy nhiên, nếu người ta hiểu được các tính chất của suy luận với bài kiểm tra trong các tình huống này, người ta không thể bỏ qua tác động tiềm tàng đối với quyền lực.

  2. Có vẻ kỳ quặc khi thảo luận về thử nghiệm cụ thể về tương quan Pearson mà không kiểm tra các thử nghiệm thay thế - ví dụ: các thử nghiệm hoán vị về tương quan Pearson, các thử nghiệm xếp hạng như tau của Kendall và Spearman (không chỉ có hiệu suất tốt khi các giả định bình thường nắm giữ, nhưng cũng có liên quan trực tiếp đến vấn đề với các công thức cần thiết cho một nghiên cứu sức mạnh mà tôi đã đề cập trước đó), có lẽ là các phiên bản được củng cố của hệ số tương quan, cũng có thể là các thử nghiệm bootstrap.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.