Trước tiên, hãy để tôi (a) giải thích ý tưởng cơ bản hơn là cơ học - chúng trở nên rõ ràng hơn khi nhìn lại. Sau đó (b) Tôi sẽ nói về hình vuông chi (và liệu nó có phù hợp không - có thể không!), Và sau đó (c) Tôi sẽ nói về cách thực hiện trong R.
(a) Dưới null, các quần thể là như nhau. Hãy tưởng tượng bạn đặt hai đoàn hệ của bạn vào một tập dữ liệu lớn nhưng thêm một cột chứa nhãn đoàn hệ. Sau đó, dưới giá trị null, nhãn đoàn hệ thực chất chỉ là một nhãn ngẫu nhiên cho bạn biết thêm về phân phối mà quan sát đến từ đó.
Tất nhiên, theo phương án thay thế, nhãn đoàn hệ có vấn đề - biết nhãn đoàn hệ cho bạn biết nhiều hơn là không biết vì phân phối dưới hai nhãn là khác nhau.
(Điều này ngay lập tức gợi ý một số loại thử nghiệm hoán vị / thử nghiệm ngẫu nhiên trong đó một thống kê - một độ nhạy với thay thế - được tính trên mẫu được so sánh với phân phối của cùng một thống kê với các nhãn đoàn hệ được gán lại cho các hàng một cách ngẫu nhiên. Nếu bạn đã làm tất cả có thể đánh giá lại nó là một thử nghiệm hoán vị, nếu bạn chỉ lấy mẫu chúng thì đó là một thử nghiệm ngẫu nhiên.)
(b) Vậy bây giờ, làm thế nào để làm một hình vuông chi?
Bạn tính toán các giá trị mong đợi dưới giá trị null. Vì các nhãn nhóm không quan trọng dưới giá trị null, nên bạn tính số lượng dự kiến trong mỗi ô dựa trên phân phối tổng thể:
Status
A B ... E ... G ... Total
Cohort 1: 10 15 18 84
Cohort 2: 9 7 25 78
Total: 19 22 ... 43 ... 162
( tôi , j )×
Vì vậy, bạn chỉ cần có được một bài kiểm tra chi bình thường của sự độc lập .
TUY NHIÊN!
Nếu các nhãn trạng thái tạo thành một danh mục có thứ tự , bài kiểm tra chi bình phương này sẽ ném đi rất nhiều thông tin - nó sẽ có sức mạnh thấp đối với các lựa chọn thay thế thú vị (chẳng hạn như thay đổi một chút về các danh mục cao hơn hoặc thấp hơn). Trong tình huống đó, bạn nên làm một cái gì đó phù hợp hơn - nghĩa là, có tính đến việc đặt hàng. Có nhiều lựa chọn.
-
(c) Bây giờ về cách thực hiện trong R - nó phụ thuộc vào cách dữ liệu của bạn hiện được thiết lập trong R - nó thực sự có ích để có một ví dụ có thể lặp lại như một tập hợp con dữ liệu của bạn!
Tôi sẽ giả sử bạn có nó trong một khung dữ liệu có hai cột, một cột có trạng thái (một yếu tố) và một cột có đoàn hệ (yếu tố thứ hai).
Thích như vậy:
status cohort
1 B Cohort1
2 B Cohort1
3 D Cohort1
4 B Cohort1
5 C Cohort1
6 D Cohort1
.
.
.
25 G Cohort2
26 E Cohort2
27 E Cohort2
28 D Cohort2
29 C Cohort2
30 G Cohort2
Sau đó, nếu đó là khung dữ liệu được gọi là statusresults
bạn sẽ có một bảng giống như bảng tôi đã làm trước đó:
> with(statusresults,table(cohort,status))
status
cohort A B C D E F G
Cohort1 2 6 7 3 0 0 0
Cohort2 0 0 2 2 4 1 3
Và đối với bài kiểm tra số liệu, bạn chỉ cần đi:
> with(statusresults, chisq.test(status, cohort))
Pearson's Chi-squared test
data: status and cohort
X-squared = 18.5185, df = 6, p-value = 0.005059
Warning message:
In chisq.test(status, cohort) : Chi-squared approximation may be incorrect
(cảnh báo là do số lượng dự kiến thấp trong một số ô, do tôi đã sử dụng một mẫu rất nhỏ)
Nếu bạn đã đặt hàng các danh mục cho trạng thái, bạn nên nói như vậy, để chúng tôi có thể thảo luận về các khả năng khác để phân tích hơn so với số liệu đơn giản.