Khoảng tin cậy cho chi bình phương


10

Tôi đang cố gắng tìm một giải pháp để so sánh hai bài kiểm tra "mức độ phù hợp với chi bình phương". Chính xác hơn, tôi muốn so sánh kết quả từ hai thí nghiệm độc lập. Trong các thí nghiệm này, các tác giả đã sử dụng mức độ phù hợp của bình phương để so sánh việc đoán ngẫu nhiên (tần số dự kiến) với tần số quan sát được. Hai thí nghiệm có cùng số lượng người tham gia và các quy trình thử nghiệm giống hệt nhau, chỉ có các kích thích thay đổi. Hai kết quả thí nghiệm đã chỉ ra một bình phương chi đáng kể (điểm 1: X² (18) = 45; p <.0005 và điểm 2: X² (18) = 79; p <.0001).

Bây giờ, những gì tôi muốn làm là kiểm tra nếu có sự khác biệt giữa hai kết quả này. Tôi nghĩ rằng một giải pháp có thể là sử dụng các khoảng tin cậy nhưng tôi không biết cách tính các khoảng tin cậy này chỉ với các kết quả này. Hoặc có thể là một thử nghiệm để so sánh kích thước hiệu ứng (Cohen's w)?

Bất cứ ai cũng có một giải pháp?

Cảm ơn rất nhiều!

FD


1
Xin chào. Tại sao không sử dụng một bài kiểm tra hoán vị về sự khác biệt giữa các bình phương chi?
Tal Galili

Xin chào và cảm ơn câu trả lời của bạn! Đơn giản vì tôi không thực sự biết các bài kiểm tra hoán vị. Có thể thực hiện hoán vị chỉ với hai giá trị chi bình phương (tôi không có dữ liệu thô, chỉ có kết quả)? Cảm ơn một lần nữa :)
Florian

Câu trả lời:


8

Thông tin rất hạn chế bạn có chắc chắn là một hạn chế nghiêm trọng! Tuy nhiên, mọi thứ không hoàn toàn vô vọng.

Theo các giả định tương tự dẫn đến phân phối tiệm cận cho thống kê kiểm tra về mức độ phù hợp của thử nghiệm cùng tên, thống kê kiểm tra theo giả thuyết thay thế có, không có triệu chứng, phân phối không trung tính . Nếu chúng ta giả sử hai kích thích là a) có ý nghĩa và b) có tác dụng như nhau, thì các thống kê kiểm tra liên quan sẽ có cùng phân phối không có triệu chứng tiệm cận . Chúng ta có thể sử dụng điều này để xây dựng một bài kiểm tra - về cơ bản, bằng cách ước tính tham số phi tập trung và xem liệu các số liệu thống kê kiểm tra có nằm xa trong đuôi của phân phối không tập trung . (Tuy nhiên, điều đó không có nghĩa là thử nghiệm này sẽ có nhiều sức mạnh.)χ2χ2χ2λχ2(18,λ^)

Chúng tôi có thể ước tính tham số phi tập trung được đưa ra hai thống kê kiểm tra bằng cách lấy trung bình của chúng và trừ đi mức độ tự do (một phương pháp ước tính khoảnh khắc), đưa ra ước tính 44 hoặc theo khả năng tối đa:

x <- c(45, 79)
n <- 18

ll <- function(ncp, n, x) sum(dchisq(x, n, ncp, log=TRUE))
foo <- optimize(ll, c(30,60), n=n, x=x, maximum=TRUE)
> foo$maximum
[1] 43.67619

Thỏa thuận tốt giữa hai ước tính của chúng tôi, không thực sự đáng ngạc nhiên khi đưa ra hai điểm dữ liệu và 18 độ tự do. Bây giờ để tính giá trị p:

> pchisq(x, n, foo$maximum)
[1] 0.1190264 0.8798421

Vì vậy, giá trị p của chúng tôi là 0,12, không đủ để bác bỏ giả thuyết khống rằng hai kích thích là như nhau.

Liệu thử nghiệm này có thực sự có (khoảng) tỷ lệ loại bỏ 5% khi các tham số không trung tính giống nhau không? Liệu nó có sức mạnh nào không? Chúng tôi sẽ cố gắng trả lời những câu hỏi này bằng cách xây dựng một đường cong sức mạnh như sau. Đầu tiên, chúng tôi sửa trung bình với giá trị ước tính là 43,68. Các bản phân phối thay thế cho hai thống kê kiểm tra sẽ là phi tập trung với 18 độ tự do và tham số không trung tính cho . Chúng tôi sẽ mô phỏng 10000 lần rút tiền từ hai bản phân phối này cho mỗi và xem tần suất kiểm tra của chúng tôi từ chối ở mức độ tin cậy 90% và 95%.λχ2(λδ,λ+δ)δ=1,2,,15δ

nreject05 <- nreject10 <- rep(0,16)
delta <- 0:15
lambda <- foo$maximum
for (d in delta)
{
  for (i in 1:10000)
  {
    x <- rchisq(2, n, ncp=c(lambda+d,lambda-d))
    lhat <- optimize(ll, c(5,95), n=n, x=x, maximum=TRUE)$maximum
    pval <- pchisq(min(x), n, lhat)
    nreject05[d+1] <- nreject05[d+1] + (pval < 0.05)
    nreject10[d+1] <- nreject10[d+1] + (pval < 0.10)
  }
}
preject05 <- nreject05 / 10000
preject10 <- nreject10 / 10000

plot(preject05~delta, type='l', lty=1, lwd=2,
     ylim = c(0, 0.4),
     xlab = "1/2 difference between NCPs",
     ylab = "Simulated rejection rates",
     main = "")
lines(preject10~delta, type='l', lty=2, lwd=2)
legend("topleft",legend=c(expression(paste(alpha, " = 0.05")),
                          expression(paste(alpha, " = 0.10"))),
       lty=c(1,2), lwd=2)

cung cấp cho những điều sau đây:

nhập mô tả hình ảnh ở đây

Nhìn vào các điểm giả thuyết null thực sự (giá trị trục x = 0), chúng tôi thấy rằng thử nghiệm là bảo thủ, trong đó nó dường như không từ chối thường xuyên như mức độ sẽ chỉ ra, nhưng không quá áp đảo. Như chúng ta mong đợi, nó không có nhiều sức mạnh, nhưng tốt hơn là không có gì. Tôi tự hỏi nếu có những bài kiểm tra tốt hơn ngoài kia, với số lượng thông tin rất hạn chế mà bạn có sẵn.


Tôi là người mới trong công cụ này, tôi có thể hỏi bạn cách chạy tập lệnh (nếu đó là tập lệnh) từ câu trả lời của jbowman. Trong trường hợp của tôi, hãy thử lấy OR từ 90% CI. Tôi thực sự đánh giá cao nếu một trong số các bạn có thể giải thích cho tôi và tôi sử dụng PASW17

Xin chào tro6. Trên thực tế, đó là tập lệnh cho phần mềm R (để biết thêm thông tin: r-project.org ), không phải cú pháp cho PASW17. Vì vậy, kịch bản này có thể được chạy trực tiếp trong bảng điều khiển R. Tập lệnh này không tính khoảng tin cậy nhưng cung cấp cho bạn giá trị p (chính xác là> pchisq (x, n, foo $ Maximum ==> [1] p-value = 0.1190264) tương ứng với thử nghiệm về sự khác biệt giữa 2 thử nghiệm (ở đây giữa hai kích thích, trong trường hợp giả thuyết thay thế) và ở đây chúng ta không thể bác bỏ giả thuyết khống rằng hai thí nghiệm đã cho kết quả giống nhau.
Florian

3

Bạn có thể lấy Vramer, có thể hiểu là tương quan, chuyển đổi nó thành Z của Fisher và sau đó khoảng tin cậy của nó là đơn giản (SE = 1 / sqrt (n-3): Z ± se * 1.96). Sau khi bạn nhận được kết thúc của CI, bạn có thể chuyển đổi chúng trở lại r.

Bạn đã xem xét đưa tất cả số đếm của bạn vào một bảng dự phòng với một chiều thử nghiệm tiếp theo chưa?


Tôi nghĩ rằng không thể sử dụng Phi với mức độ phù hợp với Pear-vuông (1 biến). Đó là lý do tại sao tôi đã nói về w của Cohen nhưng công thức thực sự là similars (phi = X² / n và w = sqrt (X² / n))! Nhưng nếu có thể tính phi với thử nghiệm này và áp dụng biến đổi r thành z, bạn có đồng ý cho chúng tôi tham khảo để trích dẫn không? Chúng tôi muốn sử dụng bài kiểm tra này trong một bài viết và một vài người đánh giá có thể rất kén chọn với số liệu thống kê. Nó sẽ là một trợ giúp tuyệt vời cho chúng tôi! Về câu hỏi của bạn: chúng tôi không có dữ liệu thô chỉ có giá trị X², df và p từ một bài báo được xuất bản. Cảm ơn sự giúp đỡ của bạn!
Florian

Xin lỗi ... có nghĩa là đặt xuống Vramer, không phải phi. Vramer V có thể được sử dụng như phi.
Giăng

Và không, tôi không có trích dẫn. Nếu bạn có ảnh hưởng lớn, sẽ không có vấn đề gì nếu có một chút sai lệch trong biện pháp này. Nếu bạn không có ảnh hưởng lớn, hãy đảm bảo bạn không tạo ra xương lớn từ "tầm quan trọng" của bất kỳ xét nghiệm nào.
Giăng
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.