Kiểm tra thống kê để tăng tỷ lệ mắc một sự kiện hiếm


8

Tôi đã theo dõi dữ liệu mô phỏng của 2500 người về tỷ lệ mắc bệnh hiếm gặp hơn 20 năm

year number_affected
1   0
2   0
3   1
4   0
5   0
6   0
7   1
8   0
9   1
10  0
11  1
12  0
13  0
14  1
15  1
16  0
17  1
18  0
19  2
20  1

Thử nghiệm nào tôi có thể áp dụng để cho thấy rằng căn bệnh đang trở nên phổ biến hơn?

Chỉnh sửa: như được đề xuất bởi @Wrzlprmft Tôi đã thử tương quan đơn giản bằng phương pháp Spearman và Kendall:

        Spearman's rank correlation rho

data:  year and number_affected
S = 799.44, p-value = 0.08145
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.3989206 

Warning message:
In cor.test.default(year, number_affected, method = "spearman") :
  Cannot compute exact p-value with ties
> 



        Kendall's rank correlation tau

data:  year and number_affected
z = 1.752, p-value = 0.07978
alternative hypothesis: true tau is not equal to 0
sample estimates:
      tau 
0.3296319 

Warning message:
In cor.test.default(year, number_affected, method = "kendall") :
  Cannot compute exact p-value with ties

Những điều này có đủ tốt cho loại dữ liệu này? Thử nghiệm Mann Kendall bằng phương pháp được hiển thị bởi @AWebb cho giá trị P là [1] 0,04319868. Hồi quy Poisson được đề xuất bởi @dsaxton cho kết quả như sau:

Call:
glm(formula = number_affected ~ year, family = poisson, data = mydf)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.3187  -0.8524  -0.6173   0.5248   1.2158  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -1.79664    0.85725  -2.096   0.0361 *
year         0.09204    0.05946   1.548   0.1217  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 16.636  on 19  degrees of freedom
Residual deviance: 14.038  on 18  degrees of freedom
AIC: 36.652

Number of Fisher Scoring iterations: 5

Thành phần năm ở đây không đáng kể. Cuối cùng tôi có thể kết luận điều gì? Ngoài ra, trong tất cả các phân tích này, số 2500 (số dân số mẫu số) đã không được sử dụng. Con số đó không tạo ra sự khác biệt? Chúng ta có thể sử dụng hồi quy tuyến tính đơn giản (Gaussian) bằng cách sử dụng tỷ lệ mắc (number_affected / 2500) so với năm không?


Một số tài nguyên bạn có thể thấy hữu ích: Khảo sát Địa chất Hoa Kỳ đã xuất bản sách giáo khoa trực tuyến, Phương pháp thống kê về Tài nguyên nước . Chương về phân tích xu hướng, ở đây , bao gồm những thứ như thử nghiệm Mann-Kendal và khi nào bạn có thể muốn thực hiện phân tích hồi quy thay thế. Nó cũng cho thấy cách đối phó với tính thời vụ, có thể phù hợp với bạn nếu dữ liệu của bạn là hàng quý thay vì hàng năm.
Cá bạc

Thật thú vị, việc Scipy thực hiện Kendall τ mang lại cùng một hệ số nhưng giá trị p khác nhau đáng kể , cụ thể là 0,042.
Wrzlprmft

1
Về mô hình Poisson, thay vào đó tôi sẽ sử dụng drop1(fit, test="LRT")để thực hiện kiểm tra tỷ lệ khả năng, thay vì thực hiện một phép thử z không có triệu chứng trên thống kê Poisson. (Làm như vậy mang lại cho bạn giá trị p là 0,707, do đó vẫn không có ý nghĩa thống kê.) Bạn không cần đưa số dân vào hồi quy nếu nó giống nhau cho mỗi năm. Sau đó, nó chỉ đóng vai trò của một yếu tố tỷ lệ. Nhưng bạn nên bao gồm nó (với các giá trị dân mỗi năm), như dân số có nguy cơ có thể không thay đổi theo hai mươi năm. Chỉ cần thêm offset=log(pop_at_risk)vào glmcuộc gọi.
Karl Ove Hufthammer

Câu trả lời:


3

Bạn có thể sử dụng thử nghiệm Mann-Kendall không tham số . Đối với dữ liệu mẫu này casesvà giả thuyết null một phía rằng không có xu hướng tăng, bạn có thể thực hiện như sau trong .

> n<-length(cases)
> d<-outer(cases,cases,"-")
> s<-sum(sign(d[lower.tri(d)]))
> ties<-table(cases)
> v<-1/18*(n*(n-1)*(2*n+5)-sum(ties*(ties-1)*(2*ties+5)))
> t<-sign(s)*(abs(s)-1)/sqrt(v)
> 1-pnorm(t)
[1] 0.04319868

Và từ chối ở mức 5% ủng hộ xu hướng ngày càng tăng.


Bạn có tình cờ biết liệu có bất kỳ sự khác biệt nào giữa bài kiểm tra Manall không Kendall và bài kiểm tra ý nghĩa bình thường cho Kendall τ không? Hay là thử nghiệm MannTHER Kendall thậm chí là cách thông thường để đạt được các giá trị quan trọng cho Kendall's? Ít nhất các thống kê kiểm tra chỉ khác nhau bởi một yếu tố chuẩn hóa chỉ phụ thuộc vào độ dài của chuỗi thời gian:S=12n(n1)τ.
Wrzlprmft

@Wrzlprmft Đây là thử nghiệm có ý nghĩa gần đúng bình thường điển hình với sự có mặt của các mối quan hệ. Các bài viết trên Wikipedia có tốt thông tin / tài liệu tham khảo cho những điều chỉnh khác nhau cần thiết để tài khoản cho các mối quan hệ.
A. Webb

2

Bạn có thể phù hợp với mô hình hồi quy rất đơn giản chỉ bao gồm thành phần chặn và thời gian và kiểm tra "tầm quan trọng" của thành phần thời gian. Chẳng hạn, bạn có thể mô hình Poisson trong đó là số lần xuất hiện trong năm và và kiểm tra xem .( λ t ) Y t t log ( λ t ) = α + β t β > 0Yt(λt)Yttlog(λt)=α+βtβ>0


Tôi đồng ý rằng hồi quy Poisson là phù hợp. Và nếu có nhiều dữ liệu, người ta thậm chí có thể phù hợp với tỷ lệ mắc (log) như là một hàm phi tuyến tính của thời gian. Một lợi thế nữa của hồi quy Poisson là dễ dàng tính đến số lượng người có nguy cơ . Và khi một người ấy đối phó với thời gian, điều này đặc biệt quan trọng, là (có thể) xu hướng trong tỷ lệ mà chúng ta đang thấy chỉ có thể là ảnh hưởng của một tăng dân số có nguy cơ , không phải là một tỷ lệ tăng tỷ lệ . (Ví dụ, dân số thế giới đã tăng một phần tư trong hai mươi năm qua.)
Karl Ove Hufthammer 12/07/2015

1

Chỉ cần kiểm tra xem số trường hợp mới của bạn (tức là number_affected) có tương quan đáng kể với thời gian (tức là year). Vì bất kỳ sự phụ thuộc tuyến tính nào có thể có của tỷ lệ sự kiện ít nhất bị biến dạng thành sự phân biệt quan sát, bạn muốn sử dụng hệ số tương quan dựa trên xếp hạng, ví dụ: Kendall's hoặc Spearman.


Tôi thực sự có nghĩa là tỷ lệ mắc, tức là number_affected chỉ ra các trường hợp mới trong năm đó. Nhưng phương pháp tương quan đơn giản của bạn cũng nên làm việc cho điều đó.
rnso

@rnso: Tôi thực sự có nghĩa là tỷ lệ mắc, tức là number_affected chỉ ra các trường hợp mới trong năm đó. - đó là cách tôi hiểu nó và tôi thấy không có mâu thuẫn.
Wrzlprmft

1
Tôi đã đưa ra nhận xét đó vì bạn đã sử dụng từ 'mức độ phổ biến' trong câu trả lời của mình. Tỷ lệ cũng sẽ bao gồm các trường hợp của những năm trước (trừ khi họ đã chết). vi.wikipedia.org/wiki/ từ
rnso

@rnso: À, lấy điểm.
Wrzlprmft

1
Các biện pháp tương quan, như alls hoặc Spearman Kend của Kendalls, không phù hợp, vì chúng được tạo cho các biến ngẫu nhiên , và ở đây một trong các biến (thời gian) rõ ràng không phải là ngẫu nhiên. Xem, ví dụ, Đừng tóm tắt các lược đồ lấy mẫu hồi quy với Tương quan . Bên cạnh đó, các bài kiểm tra τ hoặc Spearman Kend của Kendalls sẽ không hoạt động tốt, vì có một lượng lớn các mối quan hệ trong dữ liệu. Một cách tiếp cận hồi quy sẽ tốt hơn, ví dụ, hồi quy Poisson (với hàm xu hướng phù hợp) và kiểm tra tỷ lệ khả năng.
Karl Ove Hufthammer
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.