Tôi đã theo dõi dữ liệu mô phỏng của 2500 người về tỷ lệ mắc bệnh hiếm gặp hơn 20 năm
year number_affected
1 0
2 0
3 1
4 0
5 0
6 0
7 1
8 0
9 1
10 0
11 1
12 0
13 0
14 1
15 1
16 0
17 1
18 0
19 2
20 1
Thử nghiệm nào tôi có thể áp dụng để cho thấy rằng căn bệnh đang trở nên phổ biến hơn?
Chỉnh sửa: như được đề xuất bởi @Wrzlprmft Tôi đã thử tương quan đơn giản bằng phương pháp Spearman và Kendall:
Spearman's rank correlation rho
data: year and number_affected
S = 799.44, p-value = 0.08145
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.3989206
Warning message:
In cor.test.default(year, number_affected, method = "spearman") :
Cannot compute exact p-value with ties
>
Kendall's rank correlation tau
data: year and number_affected
z = 1.752, p-value = 0.07978
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.3296319
Warning message:
In cor.test.default(year, number_affected, method = "kendall") :
Cannot compute exact p-value with ties
Những điều này có đủ tốt cho loại dữ liệu này? Thử nghiệm Mann Kendall bằng phương pháp được hiển thị bởi @AWebb cho giá trị P là [1] 0,04319868. Hồi quy Poisson được đề xuất bởi @dsaxton cho kết quả như sau:
Call:
glm(formula = number_affected ~ year, family = poisson, data = mydf)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3187 -0.8524 -0.6173 0.5248 1.2158
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.79664 0.85725 -2.096 0.0361 *
year 0.09204 0.05946 1.548 0.1217
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 16.636 on 19 degrees of freedom
Residual deviance: 14.038 on 18 degrees of freedom
AIC: 36.652
Number of Fisher Scoring iterations: 5
Thành phần năm ở đây không đáng kể. Cuối cùng tôi có thể kết luận điều gì? Ngoài ra, trong tất cả các phân tích này, số 2500 (số dân số mẫu số) đã không được sử dụng. Con số đó không tạo ra sự khác biệt? Chúng ta có thể sử dụng hồi quy tuyến tính đơn giản (Gaussian) bằng cách sử dụng tỷ lệ mắc (number_affected / 2500) so với năm không?
drop1(fit, test="LRT")
để thực hiện kiểm tra tỷ lệ khả năng, thay vì thực hiện một phép thử z không có triệu chứng trên thống kê Poisson. (Làm như vậy mang lại cho bạn giá trị p là 0,707, do đó vẫn không có ý nghĩa thống kê.) Bạn không cần đưa số dân vào hồi quy nếu nó giống nhau cho mỗi năm. Sau đó, nó chỉ đóng vai trò của một yếu tố tỷ lệ. Nhưng bạn nên bao gồm nó (với các giá trị dân mỗi năm), như dân số có nguy cơ có thể không thay đổi theo hai mươi năm. Chỉ cần thêm offset=log(pop_at_risk)
vào glm
cuộc gọi.