Thông tin rất hạn chế bạn có chắc chắn là một hạn chế nghiêm trọng! Tuy nhiên, mọi thứ không hoàn toàn vô vọng.
Theo các giả định tương tự dẫn đến phân phối tiệm cận cho thống kê kiểm tra về mức độ phù hợp của thử nghiệm cùng tên, thống kê kiểm tra theo giả thuyết thay thế có, không có triệu chứng, phân phối không trung tính . Nếu chúng ta giả sử hai kích thích là a) có ý nghĩa và b) có tác dụng như nhau, thì các thống kê kiểm tra liên quan sẽ có cùng phân phối không có triệu chứng tiệm cận . Chúng ta có thể sử dụng điều này để xây dựng một bài kiểm tra - về cơ bản, bằng cách ước tính tham số phi tập trung và xem liệu các số liệu thống kê kiểm tra có nằm xa trong đuôi của phân phối không tập trung . (Tuy nhiên, điều đó không có nghĩa là thử nghiệm này sẽ có nhiều sức mạnh.)χ2χ2χ2λχ2(18,λ^)
Chúng tôi có thể ước tính tham số phi tập trung được đưa ra hai thống kê kiểm tra bằng cách lấy trung bình của chúng và trừ đi mức độ tự do (một phương pháp ước tính khoảnh khắc), đưa ra ước tính 44 hoặc theo khả năng tối đa:
x <- c(45, 79)
n <- 18
ll <- function(ncp, n, x) sum(dchisq(x, n, ncp, log=TRUE))
foo <- optimize(ll, c(30,60), n=n, x=x, maximum=TRUE)
> foo$maximum
[1] 43.67619
Thỏa thuận tốt giữa hai ước tính của chúng tôi, không thực sự đáng ngạc nhiên khi đưa ra hai điểm dữ liệu và 18 độ tự do. Bây giờ để tính giá trị p:
> pchisq(x, n, foo$maximum)
[1] 0.1190264 0.8798421
Vì vậy, giá trị p của chúng tôi là 0,12, không đủ để bác bỏ giả thuyết khống rằng hai kích thích là như nhau.
Liệu thử nghiệm này có thực sự có (khoảng) tỷ lệ loại bỏ 5% khi các tham số không trung tính giống nhau không? Liệu nó có sức mạnh nào không? Chúng tôi sẽ cố gắng trả lời những câu hỏi này bằng cách xây dựng một đường cong sức mạnh như sau. Đầu tiên, chúng tôi sửa trung bình với giá trị ước tính là 43,68. Các bản phân phối thay thế cho hai thống kê kiểm tra sẽ là phi tập trung với 18 độ tự do và tham số không trung tính cho . Chúng tôi sẽ mô phỏng 10000 lần rút tiền từ hai bản phân phối này cho mỗi và xem tần suất kiểm tra của chúng tôi từ chối ở mức độ tin cậy 90% và 95%.λχ2(λ−δ,λ+δ)δ=1,2,…,15δ
nreject05 <- nreject10 <- rep(0,16)
delta <- 0:15
lambda <- foo$maximum
for (d in delta)
{
for (i in 1:10000)
{
x <- rchisq(2, n, ncp=c(lambda+d,lambda-d))
lhat <- optimize(ll, c(5,95), n=n, x=x, maximum=TRUE)$maximum
pval <- pchisq(min(x), n, lhat)
nreject05[d+1] <- nreject05[d+1] + (pval < 0.05)
nreject10[d+1] <- nreject10[d+1] + (pval < 0.10)
}
}
preject05 <- nreject05 / 10000
preject10 <- nreject10 / 10000
plot(preject05~delta, type='l', lty=1, lwd=2,
ylim = c(0, 0.4),
xlab = "1/2 difference between NCPs",
ylab = "Simulated rejection rates",
main = "")
lines(preject10~delta, type='l', lty=2, lwd=2)
legend("topleft",legend=c(expression(paste(alpha, " = 0.05")),
expression(paste(alpha, " = 0.10"))),
lty=c(1,2), lwd=2)
cung cấp cho những điều sau đây:
Nhìn vào các điểm giả thuyết null thực sự (giá trị trục x = 0), chúng tôi thấy rằng thử nghiệm là bảo thủ, trong đó nó dường như không từ chối thường xuyên như mức độ sẽ chỉ ra, nhưng không quá áp đảo. Như chúng ta mong đợi, nó không có nhiều sức mạnh, nhưng tốt hơn là không có gì. Tôi tự hỏi nếu có những bài kiểm tra tốt hơn ngoài kia, với số lượng thông tin rất hạn chế mà bạn có sẵn.