Tôi đã đọc qua các câu trả lời hiện có trên CrossValidated (cộng với các nơi khác trực tuyến) và không thể tìm thấy những gì tôi đang tìm kiếm, nhưng vui lòng chỉ cho tôi các nguồn hiện có nếu tôi bỏ lỡ chúng.
Giả sử tôi có một bộ dữ liệu gồm N = 1000 bản ghi, mỗi bản ghi có thể được lấy mẫu thủ công và được gắn nhãn là 'Hợp lệ' hoặc 'Không hợp lệ' (hoặc Đúng / Sai, Đúng / Sai, v.v.).
Tôi muốn đạt được một mức độ tin cậy nhất định rằng tất cả các bản ghi trong bộ dữ liệu là Hợp lệ. Khi tôi lấy mẫu các bản ghi, nếu tôi tìm thấy một bản không hợp lệ, tôi sẽ quay lại và sửa đổi cách tạo tập dữ liệu để khắc phục vấn đề đó và các vấn đề tương tự.
Vì vậy, sau một số lần lặp lại phát hiện Thương binh, sửa chữa và tạo lại tập dữ liệu, tôi thực hiện một số mẫu chỉ bao gồm các bản ghi hợp lệ. Nếu tôi muốn (chắc chắn) 99% hoặc 95% chắc chắn rằng tất cả các hồ sơ đều hợp lệ, mẫu của tôi phải lớn đến mức nào? (Lý tưởng là một chức năng của N.)
Tôi đã thử chơi xung quanh với các bài kiểm tra Hypergeometric ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - trong bối cảnh đó tôi muốn biết k nên là gì, nhưng tôi không có giá trị K cố định Thay vào đó, tôi muốn chọn k sao cho K có thể bằng N - nhưng việc đặt K = N rõ ràng có hiệu suất theo Xác suất 1! Tôi cũng tự hỏi nếu tôi cần sử dụng một cách tiếp cận Bayes nhưng tôi không hiểu đủ các số liệu thống kê của Bayes.