Câu hỏi của tôi có thể được nhắc lại là "cách đánh giá lỗi lấy mẫu bằng cách sử dụng dữ liệu lớn", đặc biệt đối với một ấn phẩm tạp chí. Dưới đây là một ví dụ để minh họa một thách thức.
Từ một bộ dữ liệu rất lớn (> 100000 bệnh nhân duy nhất và thuốc theo quy định của họ từ 100 bệnh viện), tôi quan tâm đến việc ước tính tỷ lệ bệnh nhân dùng một loại thuốc cụ thể. Thật đơn giản để có được tỷ lệ này. Khoảng tin cậy của nó (ví dụ: tham số hoặc bootstrap) cực kỳ chặt chẽ / hẹp, bởi vì n rất lớn. Mặc dù may mắn có kích thước mẫu lớn, tôi vẫn đang tìm cách đánh giá, trình bày và / hoặc hình dung một số dạng xác suất lỗi. Mặc dù có vẻ không hữu ích (nếu không gây hiểu lầm) để đặt / hình dung khoảng tin cậy (ví dụ: 95% CI: .65878 - .65881), có vẻ như không thể tránh được một số tuyên bố về sự không chắc chắn.
Xin vui lòng cho tôi biết những gì bạn nghĩ. Tôi sẽ đánh giá cao bất kỳ tài liệu về chủ đề này; cách để tránh quá tự tin vào dữ liệu ngay cả với cỡ mẫu lớn.