Ước tính cho một tỷ lệ mới mắc


8

Trong khi trải qua một khóa học thống kê cho sinh viên y khoa, tôi đã gặp phải một vấn đề liên quan đến tỷ lệ mắc bệnh. Bối cảnh của vấn đề là một chương về phân phối Poisson. Trong vấn đề này, 2300 người hút thuốc được theo dõi trong khoảng thời gian 1 năm, trong đó 24 người trong số họ bị ung thư phổi. Sau đó, họ muốn tính tỷ lệ mới mắc của quy trình và tiến hành như sau:

Incidence rate=24230024/2

Lúc đầu, tôi không hiểu tại sao họ lại trừ , nhưng tôi cho rằng đó là một sự điều chỉnh vì thực tế là vì 24 người đó bị ung thư trong năm, thời gian của họ có nguy cơ ngắn hơn so với những người không phát triển bệnh tật. Không có thêm thông tin đã được đưa ra trong chính sách giáo khoa, ít nhất là không phải trong vấn đề. Một tìm kiếm nhanh đã xác nhận rằng tôi đang suy nghĩ theo đúng dòng.24/2

Nhưng tôi vẫn không hiểu lý do căn bản của công thức. Ai đó có thể khai sáng cho tôi? Ngoài ra, nếu một số tài liệu tham khảo có thể truy cập cho sinh viên y khoa có thể được cung cấp. Tôi không ngại có nhiều tài liệu tham khảo công nghệ là tốt.


1
Tôi hoàn toàn không hiểu câu hỏi của bạn - bạn có thể giải thích thêm một chút không? Tỷ lệ mắc chỉ là như vậy, tỷ lệ, và do đó "phơi bày" theo thời gian của con người trong mẫu số. Bạn đã đúng về ngày 24/2, điều này phản ánh giả định rằng những người bị ung thư phổi đã làm như vậy vào giữa thời điểm này và do đó kiểm duyệt họ sau 6 tháng. Ngược lại, bạn có thể ước tính tỷ lệ lưu hành (24/2300), nhưng tỷ lệ lưu hành là chức năng của tỷ lệ mắc và thời gian mắc bệnh, do đó ít hữu ích hơn nếu bạn quan tâm đến việc xác định nguyên nhân gây bệnh.
DL Dahly

Nhưng tại sao giả định này là OK?
Raskolnikov

Chỉ bởi vì đó là một giả định tốt hơn so với kiểm duyệt tại 3 hoặc 9 tháng chẳng hạn. Trừ khi bạn có một số loại hiệu ứng theo mùa, hoặc một cái gì đó tương tự, dự đoán tốt nhất của bạn là điểm giữa của khoảng. Cách duy nhất để cải thiện điều này là thu thập dữ liệu của bạn ở độ phân giải thời gian cao hơn.
DL Dahly

Câu trả lời:


6

Tôi đề xuất mô hình hóa sự xuất hiện ung thư như là một quá trình Poisson. Nhiều sự kiện (xuất hiện khối u) có thể trong cùng một cá nhân trong khoảng thời gian quan sát. Nếu là tỷ lệ xuất hiện khối u theo năm, xác suất 0 sự kiện là và xác suất của 1 sự kiện trở lên là .e - λ p = 1 - e - λλeλp=1eλ

Bạn theo dõi cá nhân trong một năm. Số lượng cá nhân có 1 sự kiện trở lên là . Số dự kiến ​​là .X B i n ( n , p ) E ( X ) = n p = n ( 1 - e - λ )nXBin(n,p)E(X)=np=n(1eλ)

Bây giờ bạn quan sát sự kiện và muốn ước tính . Ước tính đầu tiên , sau đó . Bằng cách bất biến các công cụ ước tính khả năng tối đa, là MLE của .λ p = xxλ λ =-log(1-xp^=xn bước sóngbước sóngλ^=log(1xn)xn+x22n2λ^λ

Công cụ ước tính của bạn là . Sự khác biệt giữa hai công cụ ước tính là khoảng , rất nhỏ nếu nhỏ. Tôi đoán điều này cung cấp một số biện minh, ngay cả khi một số mô hình khác có thể có thể dẫn trực tiếp đến công cụ ước tính của bạn. x3/6n3x/nx/n1x/2nxn+x22n2x3/6n3x/n


4
@Raskolnikov và Elvis (+1), cũng lưu ý rằng các phân số tiếp tục tiêu chuẩn cho bị cắt ở năng suất hội tụ thứ hai và xấp xỉ này luôn luôn tốt hơn so với việc mở rộng chuỗi Taylor bậc hai cho phạm vi quan tâm. - log ( 1 - z ) z / ( 1 - z / 2 ) zlog(1z)log(1z)z/(1z/2)z
hồng y

Trên thực tế, tôi đã thực hiện phép đo tương tự nhưng đã phạm sai lầm khi đánh đồng với . Đó là lý do tại sao tôi không thể tìm ra liên kết với người ước tính khác. e - λpeλ
Raskolnikov

@Raskolnikov Tôi cảm ơn bạn vì câu hỏi hay này dẫn đến một bài tập hay cho học sinh của tôi;) giả cũng rất hay
Elvis

@cardinal Và phiên bản đẹp!
Elvis

3

Giả sử chẩn đoán ung thư được trải đều trong năm, những người được chẩn đoán có nguy cơ được chẩn đoán (trung bình) nửa năm trước chẩn đoán đó.

Liên kết của bạn đề cập đến giả định về sự xuất hiện ở điểm nửa đường trong giai đoạn quan sát nhưng không xuất phát từ đâu - đó chỉ là giả định về tính đồng nhất. Giả định này không phải lúc nào cũng hợp lý và đôi khi nó có thể tạo ra sự khác biệt đáng kể. Tôi khuyên bạn nên biết về giả định mỗi khi bạn sử dụng công thức, bởi vì bạn nên xem xét sự phù hợp của nó và nếu nó không phù hợp, liệu nó có thể có tác động đáng kể đến ước tính (trong trường hợp đó, một giả định tốt hơn về sự xuất hiện cần được điều tra)


Vì vậy, đó là tất cả để có nó? Giả định về tính đồng nhất? Nhưng tại sao sự đồng nhất của chẩn đoán có vấn đề? Tại sao không xác suất mắc bệnh, mà tôi cho rằng nhiều khả năng sẽ được phân phối Poisson (ít nhất là dưới dạng mô hình null)?
Raskolnikov

Giả định về tính đồng nhất là nguồn gốc của nó, vì vậy, đó là tất cả; trong trường hợp không có thông tin khác (và đôi khi ngay cả khi có thông tin này), đó là một giả định phổ biến trong việc tính toán rủi ro. Về phần chẩn đoán, tôi cho rằng dữ liệu là về chẩn đoán, không phải là tỷ lệ mắc bệnh, vì chúng tôi không quan sát tỷ lệ mắc bệnh không được chẩn đoán - bất cứ điều gì được phân tích là những gì giả định cần phải áp dụng.
Glen_b -Reinstate Monica

Để rõ ràng hơn, liên kết của bạn đề cập đến công thức đến từ 'phương pháp tính toán'. Các tài liệu chuyên gia tính toán có liên quan là các yếu tố của rủi ro tiếp xúc với tiêu chuẩn khá nhiều trong mọi giáo trình chuyên gia tính toán mà tôi biết. Giả định cụ thể về tính đồng nhất đó không phải là thứ tôi vừa tạo ra, nó hoàn toàn rõ ràng trong khóa đào tạo chuyên gia tính toán. Bạn hỏi nó đến từ đâu; liên kết đề cập đến phương pháp Actuarial; đến lượt nó phát sinh từ cách tiếp cận chuyên gia tính toán để tiếp xúc với rủi ro.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.