Tôi không có cuốn sách Fleiss trong tay, vì vậy tất cả đây là IIRC.
Trả lời câu hỏi của @ JohnMoeller trong các bình luận vào lúc này: câu hỏi ban đầu là IMHO không thể trả lời được.
Vì vậy, giả sử rằng tôi có 30 mẫu, và tôi kiểm tra c1 và c2 trên mỗi mẫu và ghi lại độ chính xác cho từng mẫu trên mỗi mẫu.
làm điều này, bạn kết thúc với bảng dự phòng 2 x 2, đưa ra phân loại 1 đúng / sai so với phân loại 2 đúng / sai. Đó là điểm khởi đầu cho bài kiểm tra của McNemar . Vì vậy, đây là để so sánh theo cặp, mạnh hơn so với tỷ lệ "độc lập" (không hoàn toàn độc lập nếu chúng đến từ việc vẽ ngẫu nhiên từ cùng một mẫu hữu hạn).
Tôi không thể tra cứu "bản in nhỏ" của McNemar ngay bây giờ, nhưng 30 mẫu không nhiều. Vì vậy, bạn thậm chí có thể phải chuyển từ thử nghiệm chính xác của McNemar sang thử nghiệm chính xác của Fisher [hoặc một cái gì khác] để tính toán xác suất nhị thức.
Phương tiện tỷ lệ:
Không quan trọng bạn kiểm tra một và cùng phân loại 10 lần với 10 trường hợp kiểm tra hay một lần với tất cả 100 trường hợp đó (bảng 2 x 2 chỉ tính tất cả các trường hợp kiểm tra).
Nếu 10 ước tính về độ chính xác cho mỗi phân loại trong câu hỏi ban đầu thu được bằng cách giữ ngẫu nhiên hoặc xác thực chéo 10 lần hoặc hết 10 lần khởi động, thì giả định thường là 10 mô hình thay thế được tính cho mỗi phân loại là tương đương (= có cùng độ chính xác), vì vậy kết quả kiểm tra có thể được gộp chung *. Để xác thực chéo 10 lần, sau đó bạn giả sử rằng kích thước mẫu thử bằng tổng số mẫu thử. Đối với các phương pháp khác tôi không chắc lắm: bạn có thể kiểm tra trường hợp tương tự nhiều lần. Tùy thuộc vào dữ liệu / vấn đề / ứng dụng, điều này không có nhiều thông tin như kiểm tra một trường hợp mới.
k
knp^= knσ2( p^) = σ2( kn) = p ( 1 - p )n