Lỗi tiêu chuẩn của một số đếm


14

Tôi có một bộ dữ liệu về các trường hợp sự cố theo mùa của một căn bệnh hiếm gặp. Ví dụ, giả sử có 180 trường hợp vào mùa xuân, 90 trường hợp vào mùa hè, 45 trường hợp vào mùa thu và 210 trường hợp vào mùa đông. Tôi đang vật lộn với việc có phù hợp để đính kèm các lỗi tiêu chuẩn cho những con số này hay không. Các mục tiêu nghiên cứu được suy luận theo nghĩa là chúng ta đang tìm kiếm một mô hình theo mùa trong tỷ lệ mắc bệnh có thể tái phát trong tương lai. Vì vậy, nó cảm thấy bằng trực giác giống như nó có thể gắn một thước đo độ không chắc chắn vào tổng số. Tuy nhiên, tôi không chắc người ta sẽ tính toán một lỗi tiêu chuẩn trong trường hợp này như thế nào vì chúng ta đang xử lý các số đếm đơn giản hơn là, ví dụ: phương tiện hoặc tỷ lệ.

Cuối cùng, câu trả lời sẽ phụ thuộc vào việc dữ liệu đại diện cho dân số các trường hợp (mọi trường hợp đã từng xảy ra) hay một mẫu ngẫu nhiên? Nếu tôi không nhầm, nói chung sẽ không có ý nghĩa khi trình bày các lỗi tiêu chuẩn với thống kê dân số, vì không có suy luận.


Đếm chỉ là tỷ lệ không chuẩn hóa để bạn có thể tính st. lỗi về tỷ lệ và "không chuẩn hóa" nó thành các đơn vị đếm, nếu nó có ý nghĩa đối với bạn. Bạn nói đúng đó. lỗi chỉ áp dụng cho mẫu. Trong dân số, không có lỗi.
ttnphns

Câu trả lời:


14

Dân số là tập hợp (giả thuyết) của tất cả những người có nguy cơ mắc bệnh; thông thường, bao gồm tất cả mọi người (hoặc một số nhóm người có thể nhận dạng rõ ràng) cư trú trong khu vực nghiên cứu. Điều quan trọng là xác định rõ ràng dân số này, bởi vì đó là mục tiêu của nghiên cứu và của tất cả các suy luận được thực hiện từ dữ liệu.

Khi các trường hợp bệnh là độc lập (có thể là một giả thuyết hợp lý khi bệnh không dễ dàng giao tiếp giữa người với người và không phải do điều kiện môi trường địa phương) và chúng rất hiếm, thì các số liệu phải theo sát phân phối Poisson . Đối với phân phối này, một ước tính tốt về độ lệch chuẩn của nó là căn bậc hai của số đếm .

(180,90,45,210) sẽ có độ lệch chuẩn liên quan đến (13.4,9,5,6,7,14,5), mà chúng ta có thể coi tạm thời là những đánh giá sơ bộ về lỗi. Về mặt khái niệm, trong mỗi mùa có một tỷ lệ mắc bệnh thật giả định - mọi người trong dân số trong mùa đó đều có nguy cơ mắc bệnh như nhau - nhưng vì bệnh này được coi là một sự kiện ngẫu nhiên , thực tế số lượng bệnh quan sát được trong một mùa sẽ thay đổi so với tỷ lệ thực sự đó. Căn bậc hai của tỷ lệ đúng (nhưng chưa biết!) Định lượng lượng biến thể có thể xảy ra. Bởi vì số lượng quan sát phải gần với tỷ lệ thực, nêncăn bậc hai nên là proxy hợp lý cho căn bậc hai của tỷ lệ thực. Các proxy này chính xác là những gì có nghĩa là "lỗi tiêu chuẩn".

Điều đầu tiên cần chú ý về phép tính này là sự khác biệt giữa các số đếm (có phạm vi 165 và độ lệch chuẩn của 77) lớn hơn nhiều so với SD riêng lẻ, không vượt quá 14,5. Điều này xác nhận rằng tỷ lệ cơ bản đang thay đổi đáng kể theo mùa : đó là điều được mong đợi. Theo đó, báo cáo SD của77đối với lô dữ liệu này có thể hữu ích để biểu thị mức độ thay đổi theo mùa, nhưng nó không liên quan để chỉ ra các lỗi tiêu chuẩn của các giá trị.

Nhưng nếu dữ liệu không độc lập thì sao? Dịch bệnh thường xảy ra theo cụm. Ví dụ, nếu một kích thước cụm điển hình là9, sau đó những dữ liệu này (xấp xỉ) phản ánh (20,10,5,23)cụm, tương ứng. Nếu chúng ta coi những điều này là hiện thực hóa bốn biến Poisson và sử dụng căn bậc hai của chúng để ước tính SD, chúng ta sẽ nhận được(4,5,3.2,2.2,4,8). Nhân với9 để chuyển đổi từ cụm thành người cho (40,28,5,20,44). Lưu ý các giá trị này lớn hơn bao nhiêu so với trước: phân cụm làm tăng lỗi tương đối.

Đó là khoảng cách mà một người có thể đi với những dữ liệu hạn chế này. Những tính toán đơn giản này đã tiết lộ rằng:

  • Đặc điểm dân số là rất quan trọng,

  • Căn bậc hai của số đếm là điểm khởi đầu thô để đánh giá lỗi tiêu chuẩn của nó,

  • Căn bậc hai phải được nhân (khoảng) bởi một số yếu tố để phản ánh sự thiếu độc lập trong các trường hợp bệnh (và yếu tố này có thể liên quan đến kích thước của các cụm bệnh),

  • Sự thay đổi giữa các số này chủ yếu phản ánh sự thay đổi về tỷ lệ bệnh theo thời gian chứ không phải là sự không chắc chắn (về cường độ Poisson cơ bản).


1
Rất chu đáo, trả lời thấu đáo! Cảm ơn rất nhiều.
một nửa vượt qua

2

Tôi không tỏ ra lãnh đạm khi tôi hỏi, "Lỗi tiêu chuẩn của cái gì?" Bạn có thể lấy giá trị trung bình của bốn hình này và bạn có thể tính sai số chuẩn của giá trị trung bình đó. Thống kê đó và khoảng tin cậy kết quả sẽ có ý nghĩa nếu bạn tin rằng bạn đã hợp lý khi coi 4 mùa đó là đại diện cho tất cả các bộ 4 mùa mà bạn có thể khái quát. Trong phạm vi mà bạn rất hợp lý, dữ liệu bạn có thực sự sẽ là một mẫu ngẫu nhiên của dân số. Việc lấy mẫu mà bạn đề cập sẽ đòi hỏi một lớp lấy mẫu bổ sung - bạn có thể gọi đó là lấy mẫu cụm, trong đó mỗi năm tạo thành một cụm.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.