Những giả định thông thường nào được yêu cầu cho một bài kiểm tra t không ghép đôi? Và khi nào họ gặp nhau?


12

Nếu chúng tôi muốn tiến hành thử nghiệm t cặp, yêu cầu là (nếu tôi hiểu chính xác) rằng sự khác biệt trung bình giữa các đơn vị đo lường phù hợp sẽ được phân phối bình thường.

Trong thử nghiệm t cặp, được khớp nối (AFAIK) theo yêu cầu rằng sự khác biệt giữa các đơn vị đo lường phù hợp sẽ được phân phối bình thường (ngay cả khi phân phối của hai nhóm so sánh không bình thường).

Tuy nhiên, trong một thử nghiệm t không ghép đôi, chúng tôi không thể nói về sự khác biệt giữa các đơn vị phù hợp, vì vậy chúng tôi yêu cầu các quan sát từ hai nhóm là bình thường để sự khác biệt về giá trị trung bình của chúng là bình thường. Điều này dẫn tôi đến câu hỏi của tôi:

Có thể cho hai phân phối không bình thường để sự khác biệt về phương tiện của chúng được phân phối bình thường? (và do đó, đáp ứng yêu cầu cần thiết của chúng tôi để thực hiện thử nghiệm t không ghép đôi đối với họ - một lần nữa - theo như tôi hiểu).

Cập nhật: (cảm ơn tất cả các câu trả lời) Tôi thấy rằng quy tắc chung mà chúng tôi đang tìm kiếm thực sự là sự khác biệt của phương tiện sẽ là bình thường, dường như là một giả định tốt (dưới n đủ lớn) do CLT. Điều này thật tuyệt vời đối với tôi (không đáng ngạc nhiên, chỉ đáng kinh ngạc), vì cách thức hoạt động của thử nghiệm t không ghép đôi này, nhưng sẽ không hoạt động tốt cho thử nghiệm t mẫu đơn. Dưới đây là một số mã R để minh họa:

n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000

# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)

P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    y2 <- runif(n2, 0, 2*mean2)
    MEAN[i] <- mean(y1) - mean(y2)
    P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)



n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)

for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}

par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057  # "wrong" type I error

Cảm ơn.


5
(Xi,Yi)XiFYi=Xi+Zi{Zi}N(0,σ2)

Câu trả lời:


17

Trong thực tế, Định lý giới hạn trung tâm đảm bảo với chúng ta rằng, theo một loạt các giả định, các phân phối của hai mẫu có nghĩa là sẽ được kiểm tra sẽ tự tiếp cận các phân phối chuẩn khi kích thước mẫu lớn hơn, bất kể (đây là nơi các giả định xuất hiện) của sự phân phối của dữ liệu cơ bản. Kết quả là, khi kích thước mẫu trở nên lớn hơn, sự khác biệt của phương tiện trở nên phân phối bình thường và các yêu cầu cần thiết cho thống kê t của thử nghiệm t không ghép đôi để phân phối danh nghĩa t trở nên thỏa mãn. Do đó, một câu hỏi thực tế hơn có thể là, cỡ mẫu phải lớn đến mức nào trước khi tôi có thể bỏ qua sự khác biệt giữa phân phối thực tế của thống kê và phân phối t?

Trong nhiều trường hợp, câu trả lời là "không lớn lắm", đặc biệt là khi các phân phối cơ bản khá gần với đối xứng. Ví dụ, tôi đã mô phỏng 100.000 thử nghiệm so sánh phương tiện của hai phân phối Đồng nhất (0,1), mỗi thử nghiệm có cỡ mẫu 10 và khi thử nghiệm ở mức độ tin cậy 95%, thực tế đã từ chối 5,19% null - hầu như không khác biệt từ tỷ lệ loại bỏ danh nghĩa 5% mà chúng tôi hy vọng (mặc dù nó là khoảng 2,7 độ lệch chuẩn trên 5%.)

Đây là lý do tại sao mọi người sử dụng kiểm tra t trong tất cả các tình huống mà các giả định cơ bản không thực sự được đáp ứng, nhưng tất nhiên số dặm của bạn có thể thay đổi, tùy thuộc vào chi tiết cụ thể của vấn đề của bạn. Tuy nhiên, có những xét nghiệm khác không yêu cầu Định mức, chẳng hạn như xét nghiệm Wilcoxon, ngay cả khi dữ liệu được phân phối Thông thường, cũng không có hiệu quả, khoảng 95% hiệu quả như thử nghiệm t (nghĩa là yêu cầu kích thước mẫu của N / 0,95 để có cùng công suất với phép thử t với cỡ mẫu là N, khi N đi đến vô cùng). Khi dữ liệu không được phân phối Thông thường, nó có thể (không nhất thiết sẽ) tốt hơn rất nhiều so với kiểm tra t.


6
tt

Cảm ơn Frank - nhận xét của bạn đã giúp tôi nói lên một câu hỏi gần với câu hỏi của tôi hơn sau: stats.stackexchange.com/questions/19681/ Kẻ
Tal Galili

1

Tất nhiên. Nếu đây không phải là trường hợp thì thử nghiệm mẫu độc lập sẽ không được sử dụng nhiều. Chúng tôi thực sự cần kích thước mẫu lớn hơn bởi vì để chúng tôi kiểm tra sự khác biệt về phương tiện giữa hai quần thể không bình thường, chúng tôi cần phải khiếu nại CLT.

Ví dụ nhanh, giả sử chúng ta có dân số 1 đến từ cấp số nhân với trung bình 25 và dân số 2 được phân bố đồng đều với trung bình 30. Thậm chí chúng ta sẽ cung cấp cho họ các cỡ mẫu khác nhau. Chúng ta có thể kiểm tra phân phối của sự khác biệt trong mẫu có nghĩa là trông như thế nào khi sử dụng R tương đối dễ dàng bằng cách sử dụng chức năng sao chép.

n1 <- 30
n2 <- 25
mean1 <- 25
mean2 <- 30

diffs <- replicate(10000, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
hist(diffs)

Chơi xung quanh với các cỡ mẫu sẽ cho thấy rằng ở các cỡ mẫu thấp, chúng ta không thực sự có tính quy tắc nhưng việc tăng kích thước mẫu sẽ cho chúng ta phân phối mẫu trông bình thường hơn cho sự khác biệt về phương tiện. Tất nhiên bạn có thể thay đổi các bản phân phối được sử dụng trong ví dụ này để khám phá thêm. lịch sử

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.