Làm cách nào để tính cỡ mẫu để xác nhận tính chính xác / không chính xác của các bản ghi trong bảng dữ liệu?


8

Tôi đã đọc qua các câu trả lời hiện có trên CrossValidated (cộng với các nơi khác trực tuyến) và không thể tìm thấy những gì tôi đang tìm kiếm, nhưng vui lòng chỉ cho tôi các nguồn hiện có nếu tôi bỏ lỡ chúng.

Giả sử tôi có một bộ dữ liệu gồm N = 1000 bản ghi, mỗi bản ghi có thể được lấy mẫu thủ công và được gắn nhãn là 'Hợp lệ' hoặc 'Không hợp lệ' (hoặc Đúng / Sai, Đúng / Sai, v.v.).

Tôi muốn đạt được một mức độ tin cậy nhất định rằng tất cả các bản ghi trong bộ dữ liệu là Hợp lệ. Khi tôi lấy mẫu các bản ghi, nếu tôi tìm thấy một bản không hợp lệ, tôi sẽ quay lại và sửa đổi cách tạo tập dữ liệu để khắc phục vấn đề đó và các vấn đề tương tự.

Vì vậy, sau một số lần lặp lại phát hiện Thương binh, sửa chữa và tạo lại tập dữ liệu, tôi thực hiện một số mẫu chỉ bao gồm các bản ghi hợp lệ. Nếu tôi muốn (chắc chắn) 99% hoặc 95% chắc chắn rằng tất cả các hồ sơ đều hợp lệ, mẫu của tôi phải lớn đến mức nào? (Lý tưởng là một chức năng của N.)

Tôi đã thử chơi xung quanh với các bài kiểm tra Hypergeometric ( http://en.wikipedia.org/wiki/Hypergeometric_distribution#Hypergeometric_test ) - trong bối cảnh đó tôi muốn biết k nên là gì, nhưng tôi không có giá trị K cố định Thay vào đó, tôi muốn chọn k sao cho K có thể bằng N - nhưng việc đặt K = N rõ ràng có hiệu suất theo Xác suất 1! Tôi cũng tự hỏi nếu tôi cần sử dụng một cách tiếp cận Bayes nhưng tôi không hiểu đủ các số liệu thống kê của Bayes.




Cảm ơn bạn. Tôi nghĩ rằng cả ba điều này đều hữu ích và thứ ba (đặc biệt) về cơ bản là cùng một kịch bản mà tôi có. Tôi sẽ xem những gì tôi có thể làm với những phản hồi đó - Quy tắc ba âm thanh rất hữu ích!
Stuart J Cuthbertson

Không có gì. Đừng chỉnh sửa câu hỏi của bạn ở đây nếu bất cứ điều gì vẫn chưa rõ ràng.
Scortchi - Phục hồi Monica

Bây giờ bạn có thể đã giải quyết nó: nhưng vì câu hỏi chưa được đóng lại như một bản sao, và không hoàn toàn là một bản sao chính xác; Tôi nghĩ rằng nó có thể đáng để đánh vần một câu trả lời.
Scortchi - Tái lập Monica

Câu trả lời:


7

Điều này có thể được đóng khung khi kiểm tra giả thuyết null rằng có một số bản ghi không hợp lệ trong tập dữ liệu ( ) so với phương án không có ( ), cho rằng không có bản ghi không hợp lệ nào được tìm thấy trong mẫu ( ). Null gần nhất, khó nhất để từ chối, là có một bản ghi không hợp lệ duy nhất ( ). Thay thế chúng vào hàm khối lượng xác suất siêu bội cho một mẫu có kích thước từ tập dữ liệu có kích thước để lấy giá trị p (không có giá trị nhỏ hơn nào có thể được xem xét):K = 0 k = 0 K = 1 n N k kK>0K=0k=0K=1nNk

f(k)=(Kk)(NKnk)(Nn)
=(10)(N1n0)(Nn)
=NnN=p

Vì vậy, cỡ mẫu tối thiểu yêu cầu để có thể từ chối giả thuyết null ở mức ý nghĩa (hoặc tương đương để có được khoảng tin cậy một phía của )npα=1pK=0

n * = alpha N

n=(1p)N
n=αN

Với và , . Nếu điều đó có vẻ nhiều, hãy xem xét rằng tất cả một nghìn hồ sơ có giá trị là một tiêu chí nghiêm ngặt; nếu bạn cân nhắc việc thư giãn thì cách tiếp cận tương tự có thể được sử dụng để kiểm tra nói .α = 0,95 n = 950 K > 9N=1000α=0.95n=950K>9


Đó là một cách tiếp cận khác với những gì tôi đã kết luận từ việc đọc các bài viết được liên kết (tức là áp dụng Quy tắc ba). Mặc dù nó có ý nghĩa tốt và thực sự ít bảo thủ hơn Quy tắc 3 (nếu tôi đã tính đúng, tôi khuyên bạn nên lấy mẫu 3000 bản ghi cho N = 1000). Kết luận chung về "số liệu thống kê nói rằng bạn cũng có thể kiểm tra cơ bản mọi thứ nếu bạn cần phải chắc chắn" áp dụng cho cả hai phương pháp này.
Stuart J Cuthbertson

Cũng lưu ý rằng Quy tắc ba chỉ áp dụng xấp xỉ cho việc lấy mẫu mà không thay thế từ dân số hữu hạn; khi . nN
Scortchi - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.