ĐẶT VẤN ĐỀ: Bỏ qua một cách an toàn - nó ở đây để tham khảo và để hợp pháp hóa câu hỏi.
Phần mở đầu của bài viết này có nội dung:
"Thử nghiệm ngẫu nhiên chi-square nổi tiếng Karl Pearson được bắt nguồn từ số liệu thống kê khác, được gọi là số liệu thống kê z, dựa trên sự phân bố bình thường. Các phiên bản đơn giản nhất của có thể được chứng minh là toán học giống hệt nhau để kiểm tra z tương đương. Các thử nghiệm sản xuất cùng một kết quả trong mọi hoàn cảnh. đối với tất cả các tính năng “chi-squared” có thể được gọi là “z-squared”. các giá trị quan trọng của cho một mức độ tự do là bình phương của các giá trị quan trọng tương ứng của z ".
Điều này đã được khẳng định nhiều lần trong CV ( ở đây , ở đây , ở đây và những người khác).
Và thực sự chúng ta có thể chứng minh rằng tương đương vớivới:
Giả sử và và tìm mật độ của bằng cách sử dụng phương pháp :
. Vấn đề là chúng ta không thể tích hợp ở dạng mật độ của phân phối chuẩn. Nhưng chúng ta có thể diễn đạt nó:
Vì các giá trị của bình thường là đối xứng:
. Tương đương này chopdfcủa bình thường (nay làxtrongpdfsẽ√ được cắm vàoe - x 2 phần củapdfbình thường); và nhớ bao gồm1 :
So sánh với pdf của hình vuông chi:
Kể từ khi , trong1df, chúng ta đã suy ra chính xácpdfcủa hình vuông chi.
Hơn nữa, nếu chúng ta gọi hàm prop.test()
trong R, chúng ta sẽ thực hiện phép thử giống như khi chúng ta quyết định .chisq.test()
CÂU HỎI:
Vì vậy, tôi nhận được tất cả những điểm này, nhưng tôi vẫn không biết họ áp dụng như thế nào vào việc thực hiện hai thử nghiệm này vì hai lý do:
Một bài kiểm tra z không bình phương.
Thống kê kiểm tra thực tế là hoàn toàn khác nhau:
Giá trị của kiểm định thống kê cho một là:
trong đó
= Thống kê kiểm tra tích lũy của Pearson, phương pháp này gần như tiếp cậnphân phối χ 2 . O i = số lượng quan sát loại i ; N = tổng số quan sát; E i = N p i = tần số (lý thuyết) dự kiến của loại i , được khẳng định bởi giả thuyết null rằng phần của loại i trong dân số là p i ; n = số lượng ô trong bảng.
Mặt khác, thống kê kiểm tra cho -test là:
vớip=x1 , trong đóx1vàx2là số "thành công", trên số lượng đối tượng trong mỗi một trong các cấp của các biến phân loại, tức làn1vàn2.
Công thức này dường như dựa vào phân phối nhị thức.
Hai bài kiểm tra thống kê rõ ràng là khác nhau, và dẫn đến kết quả khác nhau cho số liệu thống kê kiểm tra thực tế, cũng như đối với các p -values : 5.8481
cho và cho z-kiểm tra, nơi 2,4183 2 = 5,84817 (cảm ơn bạn, @ mark999 ). Giá trị p cho phép thử χ 2 là , trong khi đối với phép thử z là . Sự khác biệt được giải thích bởi hai đuôi so với một đuôi: 0,01559 / 2 = 0,007795 (cảm ơn bạn @amoeba).2.4183
0.01559
0.0077
Vậy ở cấp độ nào chúng ta nói rằng họ là một và giống nhau?
chisq.test()
, have you tried using correct=FALSE
?