Kiểm tra chi bình phương cho sự bình đẳng của các bản phân phối: nó chịu đựng được bao nhiêu số không?


10

Tôi đang so sánh hai nhóm đột biến, mỗi nhóm chỉ có một trong số 21 kiểu hình khác nhau. Tôi muốn xem liệu phân phối của các kết quả này là tương tự giữa hai nhóm. Tôi đã tìm thấy một bài kiểm tra trực tuyến tính toán "phép thử Chi bình phương cho sự bình đẳng của các bản phân phối" và cho tôi một số kết quả chính đáng. Tuy nhiên, tôi có khá nhiều số 0 trong Bảng này, vậy tôi có thể sử dụng chi-vuông trong trường hợp này không?

Đây là bảng có hai nhóm và số kiểu hình cụ thể:

2 1
2 3
1 6
1 4
13 77
7 27
0 1
0 4
0 2
2 7
2 3
1 5
1 9
2 6
0 3
3 0
1 3
0 3
1 0
1 2
0 1

Bảng không đi ra đúng. Mỗi số lẻ là một số đếm từ nhóm 1 và mọi số chẵn là số đếm tương ứng từ nhóm 2
Membran

Tôi đã định dạng lại câu hỏi của bạn. Bảng bây giờ có đúng không?
csgillespie

Câu trả lời:


8

Hoàn toàn khả thi những ngày này để làm bài kiểm tra 'chính xác' của Fisher trên một bảng như vậy. Tôi vừa nhận được p = 0,087 bằng Stata ( tabi 2 1 \ 2 3 \ .... , exact. Thực thi mất 0,19 giây).

EDIT sau bình luận của chl bên dưới (đã thử thêm dưới dạng nhận xét nhưng không thể định dạng):

Nó hoạt động trong R 2.12.0 đối với tôi, mặc dù tôi đã phải tăng tùy chọn 'không gian làm việc' trên giá trị mặc định là 200000:

> fisher.test(x)
Error in fisher.test(x) : FEXACT error 7.
LDSTP is too small for this problem.
Try increasing the size of the workspace.
> system.time(result<-fisher.test(x, workspace = 400000))
   user  system elapsed 
   0.11    0.00    0.11 
> result$p.value
[1] 0.0866764

. là một phần của gói 'số liệu thống kê' cốt lõi của R.)


1
Thật thú vị, bài kiểm tra của Fisher đã bị sập vào R.
chl

Không thể upvote nhiều hơn, xin lỗi. Có vẻ như tôi đã không tăng wksp đủ :)
chl

Không phải là thử nghiệm "chính xác" của Fisher thực sự giải quyết câu hỏi hơi khác nhau: "... nó được sử dụng để kiểm tra tầm quan trọng của mối liên hệ (dự phòng) giữa hai loại phân loại" (trang wiki). Trong trường hợp của tôi, tôi đã tìm cách xác nhận (hoặc bác bỏ) giả thuyết rằng sự phân bố kiểu hình giữa 2 nhóm là tương tự nhau (bằng nhau). Khi tôi phát hiện ra rằng thử nghiệm trực tuyến (xem bài đăng đầu tiên) có tên là "Thử nghiệm bình phương cho sự bình đẳng của các bản phân phối", tôi nghĩ rằng đó chính xác là vấn đề của tôi ...
Membran

Ngoài ra, nếu bạn nghĩ rằng phiên bản thử nghiệm của Fisher được đề cập là tốt để so sánh hai phân phối, thì nó cũng có thể được sử dụng để kiểm tra tính đồng nhất của phân phối (nghĩa là các kiểu hình trong một nhóm được phân phối không đồng đều giữa một số kiểu hình hữu hạn có thể có) ? Người ta có thể làm điều này ngay cả trong Excel bằng hàm CHITEST, nhưng nếu tôi có phân phối tương tự như ở trên, với rất nhiều kiểu hình được quan sát dưới 5 lần thì sao?
Membran

@Membran # 1: Đây là một câu hỏi hơi khác vì điều kiện kiểm tra chính xác của Fisher trên cả hai tập hợp tổng biên. Điều này có vẻ như một cái gì đó của một thống kê học thuật tốt đẹp đối với tôi mặc dù, và tôi là một nhà thống kê trong học viện. (BTW bạn có thể làm rõ để wiki bạn tham khảo?) @Membran # 2: Tôi sẽ không gọi kiểm tra chính xác có điều kiện "thử nghiệm chính xác Fisher" trong trường hợp của một bảng một chiều, mà là một thử nghiệm như vậy nên tôi possible.and sẽ nghĩ đơn giản hơn cho các bảng một chiều, nhưng hiện tại tôi không thể tìm thấy phần mềm để hỗ trợ và tôi không có thời gian để thực hiện phép tính mà không có.
vào

5

Các hướng dẫn thông thường là số lượng dự kiến ​​sẽ lớn hơn 5, nhưng nó có thể được nới lỏng phần nào như được thảo luận trong bài viết sau:

Các xét nghiệm của Campbell, I, Chi-squared và Fisher micro Irwin của hai bảng hai với các khuyến nghị mẫu nhỏ , Thống kê trong Y học (2007) 26 (19): 3661 Lỗi3675.

Xem thêm trang chủ của Ian Campbell .

pchisq.test(..., sim=TRUE)

Trong trường hợp của bạn, có vẻ như khoảng 80% số lượng dự kiến ​​dưới 5 và 40% dưới 1. Sẽ hợp lý khi tổng hợp một số kiểu hình quan sát được?


Cảm ơn bạn đã góp ý. Về mặt logic, không hoàn toàn có thể hợp nhất các kiểu hình vì mỗi kiểu là một sự kết hợp duy nhất của ba tham số được ghi lại. Vì mỗi tham số này có thể "tăng", "xuống" hoặc "không thay đổi" do đột biến, do đó có thể có 3 ^ 3 = 27 kiểu hình riêng biệt. Trong ví dụ trên tôi đã loại bỏ các kiểu hình mà cả hai nhóm đều cho điểm "0", do đó chỉ có 21 kiểu. Tôi thấy sự phổ biến của một số kiểu hình nhất định nhưng tôi muốn có một số bằng chứng thống kê rằng sự phân bố của các kiểu hình đó trong các nhóm đột biến khác nhau là tương tự (hoặc không). Cảm ơn bạn!
Membran

1
Tập hợp @Membran không cần phải có ý nghĩa: bạn có thể tự do kết hợp các thùng theo bất kỳ cách nào bạn muốn. Tuy nhiên, một vấn đề tế nhị là sự tổng hợp sau thực tế khiến các giá trị p bị nghi ngờ; tập hợp phải độc lập với dữ liệu.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.