Chi vuông có thể được sử dụng để so sánh tỷ lệ?


13

Tôi đã đọc rằng kiểm tra chi bình phương rất hữu ích để xem liệu một mẫu có khác biệt đáng kể so với một tập hợp các giá trị dự kiến ​​hay không.

Ví dụ: đây là bảng kết quả khảo sát về màu sắc yêu thích của mọi người (n = 15 + 13 + 10 + 17 = 55 tổng số người trả lời):

red,blue,green,yellow

15,13,10,17

Một thử nghiệm chi bình phương có thể cho tôi biết nếu mẫu này khác biệt đáng kể so với giả thuyết khống về xác suất bằng nhau của những người thích mỗi màu.

Câu hỏi: Bài kiểm tra có thể được chạy theo tỷ lệ của tổng số người trả lời thích một màu nhất định không? Giống như dưới đây:

red,blue,green,yellow

0.273,0.236,0.182,0.309

Trường hợp, tất nhiên, 0,273 + 0,236 + 0,182 + 0,309 = 1.

Nếu kiểm tra chi vuông không phù hợp trong trường hợp này, kiểm tra sẽ là gì? Cảm ơn!

Chỉnh sửa: Tôi đã thử @Roman Luštrik trả lời bên dưới và nhận được kết quả sau, tại sao tôi không nhận được giá trị p và tại sao R lại nói "xấp xỉ bình phương có thể không chính xác"?

> chisq.test(c(0,0,0,8,6,2,0,0),p = c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0))

    Chi-squared test for given probabilities

data:  c(0, 0, 0, 8, 6, 2, 0, 0) 
X-squared = NaN, df = 7, p-value = NA

Warning message:
In chisq.test(c(0, 0, 0, 8, 6, 2, 0, 0), p = c(0.406197174, 0.088746395,  :
  Chi-squared approximation may be incorrect

1
Trong trường hợp thứ hai, bạn có cho rằng bạn biết tổng kích thước mẫu không? Hay không?
Đức hồng y

@cardinal: vâng tôi biết tổng kích thước mẫu.
hpy

3
sau đó chỉ cần nhân tỷ lệ với tổng kích thước mẫu để chuyển thành bảng tổng số và áp dụng chi-sq. phương pháp tương ứng với ví dụ đầu tiên của bạn.
Aaron

Tôi nghi ngờ bạn đang hỏi về bài kiểm tra "mức độ phù hợp" (sử dụng bình phương chi). Việc sử dụng đã được giải thích dưới đây. Chúc mừng, Tal
Tal Galili

Câu trả lời:


7

Sửa lỗi cho tôi nếu tôi sai, nhưng tôi nghĩ điều này có thể được thực hiện trong R bằng lệnh này

> chisq.test(c(15,13,10,17))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 1.9455, df = 3, p-value = 0.5838

Điều này giả định tỷ lệ 1/4 mỗi. Bạn có thể sửa đổi các giá trị dự kiến ​​thông qua đối số p. Ví dụ, bạn nghĩ mọi người có thể thích (vì bất kỳ lý do gì) một màu hơn (các) màu khác.

> chisq.test(c(15,13,10,17), p = c(0.5, 0.3, 0.1, 0.1))

    Chi-squared test for given probabilities

data:  c(15, 13, 10, 17) 
X-squared = 34.1515, df = 3, p-value = 1.841e-07

2
Tôi nghi ngờ bạn đang thấy điều này vì số lượng tế bào thấp (một số cuốn sách tôi đã đọc đề xuất tối thiểu 5 mỗi ô). Có lẽ ai đó am hiểu hơn về chủ đề có thể sứt mẻ?
Roman Luštrik

1
Cũng lưu ý rằng bạn có thể nhận giá trị ap nếu bạn thực hiện xác suất cuối cùng của mình nhiều hơn 0 (nhưng cảnh báo vẫn còn).
Roman Luštrik

1
Ott & Longnecker (Giới thiệu về phương pháp thống kê và phân tích dữ liệu, ấn bản thứ 5), trên trang 504, rằng mỗi ô nên có ít nhất năm, để sử dụng xấp xỉ một cách thoải mái.
Roman Luštrik

1
@penyuan: Bạn nên đề cập rằng bạn có số lượng khá nhiều. Roman đã đúng, sử dụng một hình vuông Chi trong trường hợp này chỉ không hoạt động vì những lý do mà anh ấy đề cập.
Joris Meys

1
@penyuan: Tôi đã thêm một câu trả lời cho bạn một số tùy chọn.
Joris Meys

6

Sử dụng thông tin bổ sung mà bạn đã cung cấp (có khá nhiều giá trị là 0), khá rõ ràng tại sao giải pháp của bạn không trả về gì. Đối với một, bạn có xác suất là 0, vì vậy:

  • trong giải pháp của Henry là 0 cho ít nhất một iei
  • trong giải pháp xác suất là 0 cho ít nhất một inpi

Mà làm cho sự phân chia không thể. Bây giờ nói rằng có nghĩa là không thể có kết quả đó. Nếu vậy, bạn cũng có thể xóa dữ liệu đó khỏi dữ liệu (xem bình luận của @cardinal). Nếu bạn có nghĩa là rất khó khả thi, một "giải pháp" đầu tiên có thể là tăng cơ hội 0 đó với một số rất nhỏ.p=0

Được :

X <- c(0,0,0,8,6,2,0,0)
p <- c(0.406197174,0.088746395,0.025193306,0.42041479,0.03192905,0.018328576,0.009190708,0)

Bạn có thể làm:

> p2 <- p + 1e-6
> chisq.test(X,p2)

        Pearson's Chi-squared test

data:  X and p2 
X-squared = 24, df = 21, p-value = 0.2931

Nhưng đây không phải là một kết quả chính xác. Trong mọi trường hợp, người ta nên tránh sử dụng kiểm tra chi bình phương trong các trường hợp đường biên này. Một cách tiếp cận tốt hơn là sử dụng cách tiếp cận bootstrap, tính toán một thống kê kiểm tra phù hợp và so sánh phương pháp từ mẫu với phân phối thu được từ bootstrap.

Trong mã R, điều này có thể là (từng bước):

# The function to calculate the adapted statistic.
# We add 0.5 to the expected value to avoid dividing by 0
Statistic <- function(o,e){
    e <- e+0.5
    sum(((o-e)^2)/e)
}

# Set up the bootstraps, based on the multinomial distribution
n <- 10000
bootstraps <- rmultinom(n,size=sum(X),p=p)

# calculate the expected values
expected <- p*sum(X)

# calculate the statistic for the sample and the bootstrap
ChisqSamp <- Statistic(X,expected)
ChisqDist <- apply(bootstraps,2,Statistic,expected)

# calculate the p-value
p.value <- sum(ChisqSamp < sort(ChisqDist))/n
p.value

Điều này cho giá trị p là 0, phù hợp hơn nhiều với sự khác biệt giữa quan sát và dự kiến. Xin lưu ý, phương pháp này giả định dữ liệu của bạn được rút ra từ một phân phối đa quốc gia. Nếu giả định này không giữ, giá trị p cũng không giữ.


1
Bạn có thể xem xét lại tuyên bố đầu tiên của mình, điều mà tôi không tin là chính xác. Nếu đối với một số i và số lượng quan sát bằng 0 (tốt hơn là chúng), thì điều này chỉ giảm xuống một mô hình con. Hiệu quả là số bậc tự do giảm đi một bậc cho mỗi i sao cho p i = 0 . Ví dụ, hãy xem xét thử nghiệm về tính đồng nhất của một chết sáu mặt (có nghĩa là p i = 1 / 6 cho i 6 ). Nhưng, giả sử chúng ta (lạ) quyết định để ghi lại số lần mà các con số 1 , ... ,pi=0iipi=0pi=1/6i6 hiện lên. Sau đó, kiểm tra chi bình phương vẫn còn hiệu lực; chúng tôi chỉ tổng hợp trong sáu giá trị đầu tiên. 1,,10
Đức hồng y

@cardinal: Tôi chỉ mô tả dữ liệu, trong đó giá trị mong đợi là 0 nhưng không cần phải quan sát. Đó là những gì OP đã cho chúng tôi (mặc dù về mặt thứ hai, nó thực sự nghe có vẻ không thực tế). Do đó, thêm một chút vào giá trị p để làm cho nó không khả thi thay vì không thể giúp được, nhưng ngay cả khi đó bình phương trong trường hợp này không hợp lệ do số lượng lớn các ô bảng có số lượng nhỏ hơn 5 (như được minh họa bởi mã). Tôi đã thêm sự cân nhắc trong câu trả lời của tôi, thx cho con trỏ.
Joris Meys

vâng, tôi sẽ nói nếu , nhưng bạn quan sát số đếm cho ô đó, thì dù sao bạn cũng gặp vấn đề nghiêm trọng hơn trên tay. :)pi=0
Đức hồng y

4

Bài kiểm tra chi bình phương là tốt miễn là số lượng dự kiến ​​là lớn, thường trên 10 là tốt. dưới đây có xu hướng chiếm ưu thế trong bài kiểm tra. Một thống kê kiểm tra chính xác được đưa ra bởi:1E(xi)

ψ=ixilog(xinpi)

Trong đó là số lượng quan sát được trong loại i . i { đỏ, xanh dương, xanh lục, vàng } trong ví dụ của bạn. n là cỡ mẫu của bạn, bằng 55 trong ví dụ của bạn. p i là giả thuyết bạn muốn kiểm tra - rõ ràng nhất là p i = p j (tất cả các xác suất đều bằng nhau). Bạn có thể chỉ ra rằng thống kê chi bình phương:xiii{red, blue, green, yellow}n55pipi=pj

χ2=i(xinpi)2npi2ψ

fi=xin

ψ=nifilog(fipi)
χ2=ni(fipi)2pi

ψψpi1piψ

H1H2piψ1ψ2exp(ψ1ψ2)H2H1exp(12χ1212χ22)

H2ψ2=χ22=0

χ22npi<10ψ


1
Tôi khá chắc chắn rằng tần số dự kiến không thể lớn hơn 10. :)
hồng y

@cardinal - rất vui vì đây là sự phản đối của bạn - vì nó có nghĩa là phần còn lại của câu trả lời của tôi phải tốt :).
xác suất

Wow, tôi hy vọng tôi sẽ không nổi tiếng vì quá kén chọn / gắt gỏng.
hồng y

1
ψ2ψχ2χ22ψ0χ22ψχ2
hồng y

χ22ψ

3

Có, bạn có thể kiểm tra giả thuyết null: "H0: prop (đỏ) = prop (xanh dương) = prop (xanh lá cây) = prop (vàng) = 1/4" bằng cách sử dụng kiểm tra chi bình phương so sánh tỷ lệ của khảo sát (0,273) , ...) theo tỷ lệ dự kiến ​​(1/4, 1/4, 1/4, 1/4)


Chỉ cần xác nhận, nó cũng sẽ hoạt động với tỷ lệ dự kiến ​​không đồng đều với nhau?
hpy

4
thử nghiệm sẽ không có ý nghĩa trừ khi bạn biết kích thước mẫu đầy đủ. Tỷ lệ 1,0 / 0,0 / 0,0 / 0,0 có nghĩa là những thứ rất khác nhau nếu chúng từ mẫu có kích thước 1 trái ngược với mẫu có kích thước 100.
Aaron

Có, tôi biết tổng kích thước mẫu.
hpy

2

Thống kê kiểm tra cho bài kiểm tra chi bình phương của Pearson là

i=1n(OiEi)2Ei

oi=Oinei=Einn=i=1nOii=1nei=1

ni=1n(oiei)2ei

do đó, một thử nghiệm về tầm quan trọng của tỷ lệ quan sát được phụ thuộc vào kích thước mẫu, nhiều như người ta mong đợi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.