Khoảng tin cậy khi cỡ mẫu rất lớn

14

Câu hỏi của tôi có thể được nhắc lại là "cách đánh giá lỗi lấy mẫu bằng cách sử dụng dữ liệu lớn", đặc biệt đối với một ấn phẩm tạp chí. Dưới đây là một ví dụ để minh họa một thách thức.

Từ một bộ dữ liệu rất lớn (> 100000 bệnh nhân duy nhất và thuốc theo quy định của họ từ 100 bệnh viện), tôi quan tâm đến việc ước tính tỷ lệ bệnh nhân dùng một loại thuốc cụ thể. Thật đơn giản để có được tỷ lệ này. Khoảng tin cậy của nó (ví dụ: tham số hoặc bootstrap) cực kỳ chặt chẽ / hẹp, bởi vì n rất lớn. Mặc dù may mắn có kích thước mẫu lớn, tôi vẫn đang tìm cách đánh giá, trình bày và / hoặc hình dung một số dạng xác suất lỗi. Mặc dù có vẻ không hữu ích (nếu không gây hiểu lầm) để đặt / hình dung khoảng tin cậy (ví dụ: 95% CI: .65878 - .65881), có vẻ như không thể tránh được một số tuyên bố về sự không chắc chắn.

Xin vui lòng cho tôi biết những gì bạn nghĩ. Tôi sẽ đánh giá cao bất kỳ tài liệu về chủ đề này; cách để tránh quá tự tin vào dữ liệu ngay cả với cỡ mẫu lớn.

confidence-interval large-data reporting

— so5
nguồn

7

Bạn có thể tránh sự tự tin thái quá bằng cách nhớ lại rằng các lỗi không lấy mẫu vẫn chưa được xử lý. Nếu có sự thiên vị trong lấy mẫu và đo lường, chúng vẫn còn đó. Ngoài ra, cho dù bạn đang đếm các bệnh nhân duy nhất (tôi muốn nói là "khác biệt") hoặc các quan sát được xác định theo một cách khác, có (tôi đoán) các cấu trúc cụm liên kết thuốc cho cùng một bệnh nhân và các loại thuốc được kết hợp với nhau theo bất kỳ cách nào không được tính bằng các phép tính khoảng tin cậy đơn giản nhất. Tôi không có giải pháp nào về cách định lượng điều này ngoài việc so sánh với các bộ dữ liệu khác và ghi lại quá trình sản xuất dữ liệu.

— Nick Cox

10

Vấn đề này cũng xuất hiện trong một số nghiên cứu của tôi (với tư cách là một người lập mô hình dịch bệnh, tôi có khả năng tự tạo ra các bộ dữ liệu của riêng mình và với các máy tính đủ lớn, về cơ bản chúng có thể có kích thước tùy ý.

Về mặt báo cáo, tôi nghĩ bạn có thể báo cáo khoảng tin cậy chính xác hơn, mặc dù tiện ích này là hợp pháp một chút nghi vấn. Nhưng điều đó không sai, và với các tập dữ liệu có kích thước này, tôi không nghĩ rằng có nhiều cuộc gọi đến cả hai khoảng tin cậy yêu cầu được báo cáo và sau đó phàn nàn rằng tất cả chúng ta thực sự muốn chúng được làm tròn thành hai chữ số, v.v.
Về mặt tránh sự tự tin thái quá, tôi nghĩ điều quan trọng là phải nhớ rằng độ chính xác và độ chính xác là những thứ khác nhau, và để tránh cố gắng kết hợp cả hai. Sẽ rất hấp dẫn, khi bạn có một mẫu lớn, bị hút vào mức độ chính xác của hiệu ứng ước tính và không nghĩ rằng nó cũng có thể sai. Điều tôi nghĩ là chìa khóa - một bộ dữ liệu thiên vị sẽ có độ lệch đó ở N = 10, hoặc 100 hoặc 1000 hoặc 100.000.

Toàn bộ mục đích của các tập dữ liệu lớn là cung cấp các ước tính chính xác, vì vậy tôi không nghĩ bạn cần tránh xa độ chính xác đó. Nhưng bạn phải nhớ rằng bạn không thể làm cho dữ liệu xấu tốt hơn chỉ bằng cách thu thập khối lượng dữ liệu xấu lớn hơn.

— Phụ nữ
nguồn

Tôi nghĩ rằng một khối lượng lớn dữ liệu xấu vẫn tốt hơn khối lượng dữ liệu xấu nhỏ.

— Aksakal

@Aksakal Tại sao? Một câu trả lời chính xác vẫn sai.

— Fomite

@Fomite - vâng, nhưng bạn tự tin hơn rằng nó sai :)

— Duncan

6

Vấn đề này đã xuất hiện trong các bản thảo của riêng tôi.

1. Tùy chọn báo cáo: Nếu bạn chỉ có một hoặc một vài TCTD để báo cáo, thì báo cáo "(ví dụ: 95% CI: .65878 - .65881)" không quá dài dòng và nó làm nổi bật độ chính xác của CI. Tuy nhiên, nếu bạn có nhiều TCTD, thì một tuyên bố về chăn có thể hữu ích hơn cho người đọc. Ví dụ: tôi thường báo cáo điều gì đó về tác động của "với kích thước mẫu này, tỷ lệ sai lệch 95% cho mỗi tỷ lệ nhỏ hơn +/- .010." Tôi thường báo cáo một cái gì đó như thế này trong Phương thức, hoặc trong chú thích của Bảng hoặc Hình hoặc trong cả hai.

2. Tránh "quá tự tin" ngay cả với cỡ mẫu lớn: Với mẫu 100.000, định lý giới hạn trung tâm sẽ giúp bạn an toàn khi báo cáo các TCTD về tỷ lệ. Vì vậy, trong tình huống bạn mô tả, bạn sẽ ổn, trừ khi có các vi phạm giả định khác mà tôi không biết (ví dụ: vi phạm iid).

— Anthony
nguồn

0

Đừng báo cáo khoảng tin cậy. Thay vào đó báo cáo kích thước mẫu chính xác và tỷ lệ. Người đọc sẽ có thể tính toán các TCTD của riêng mình theo bất kỳ cách nào anh ta muốn.

— Aksakal
nguồn

4

Tại sao chính lý do này không nên được áp dụng cho tất cả các báo cáo dữ liệu định lượng?

— whuber

@whuber, câu hỏi hay. Tôi là tất cả cho nghiên cứu tái sản xuất, mong muốn mọi người xuất bản bộ dữ liệu của họ.

— Aksakal

6

Tôi không có ý cho nó được coi là một gợi ý. Ngay cả khi tất cả mọi người công bố bộ dữ liệu của họ, họ sẽ bãi bỏ nhiệm vụ khoa học của mình nếu họ không cung cấp phân tích về chúng - và điều đó bao gồm phân tích về sự không chắc chắn. Bạn dường như đang đi theo một hướng hợp lý sẽ kết thúc với đề nghị rằng các nhà khoa học không làm gì ngoài việc xuất bản dữ liệu, không có phân tích nào cả! Điều đó kết thúc là một bản cáo trạng về khuyến nghị rằng các TCTD không được báo cáo. Nó chỉ ra điều ngược lại rằng một số loại phân tích thống kê nên được cung cấp trong mọi trường hợp, bất kể kích thước mẫu.

— whuber

0

Hãy xem xét khả năng tỷ lệ của 100 bệnh viện khác nhau không hội tụ đến cùng một giá trị trung bình. Bạn đã kiểm tra phương sai giữa các nhóm? Nếu có sự khác biệt có thể đo được giữa các bệnh viện, thì giả định rằng các mẫu được tạo ra từ một phân phối bình thường chung không được hỗ trợ & bạn không nên gộp chúng.

Tuy nhiên, nếu dữ liệu của bạn thực sự đến từ một mẫu lớn được phân phối bình thường, thì bạn sẽ không tìm thấy "tuyên bố về tính không chắc chắn" hữu ích như một thuộc tính của dữ liệu, nhưng khi phản ánh về lý do tại sao hoặc tại sao không thống kê của bạn nên khái quát hóa - do một số sai lệch cố hữu trong bộ sưu tập, hoặc thiếu văn phòng phẩm, vv mà bạn nên chỉ ra.

— John Mark
nguồn