Nếu chúng tôi muốn tiến hành thử nghiệm t cặp, yêu cầu là (nếu tôi hiểu chính xác) rằng sự khác biệt trung bình giữa các đơn vị đo lường phù hợp sẽ được phân phối bình thường.
Trong thử nghiệm t cặp, được khớp nối (AFAIK) theo yêu cầu rằng sự khác biệt giữa các đơn vị đo lường phù hợp sẽ được phân phối bình thường (ngay cả khi phân phối của hai nhóm so sánh không bình thường).
Tuy nhiên, trong một thử nghiệm t không ghép đôi, chúng tôi không thể nói về sự khác biệt giữa các đơn vị phù hợp, vì vậy chúng tôi yêu cầu các quan sát từ hai nhóm là bình thường để sự khác biệt về giá trị trung bình của chúng là bình thường. Điều này dẫn tôi đến câu hỏi của tôi:
Có thể cho hai phân phối không bình thường để sự khác biệt về phương tiện của chúng được phân phối bình thường? (và do đó, đáp ứng yêu cầu cần thiết của chúng tôi để thực hiện thử nghiệm t không ghép đôi đối với họ - một lần nữa - theo như tôi hiểu).
Cập nhật: (cảm ơn tất cả các câu trả lời) Tôi thấy rằng quy tắc chung mà chúng tôi đang tìm kiếm thực sự là sự khác biệt của phương tiện sẽ là bình thường, dường như là một giả định tốt (dưới n đủ lớn) do CLT. Điều này thật tuyệt vời đối với tôi (không đáng ngạc nhiên, chỉ đáng kinh ngạc), vì cách thức hoạt động của thử nghiệm t không ghép đôi này, nhưng sẽ không hoạt động tốt cho thử nghiệm t mẫu đơn. Dưới đây là một số mã R để minh họa:
n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)
P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
y2 <- runif(n2, 0, 2*mean2)
MEAN[i] <- mean(y1) - mean(y2)
P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)
n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057 # "wrong" type I error
Cảm ơn.