Câu trả lời này có hai phần, phần đầu là câu trả lời trực tiếp cho câu hỏi và phần thứ hai là phần bình luận về mô hình mà bạn đang đề xuất.
Phần đầu tiên liên quan đến việc sử dụng Numbers
như là một phần bù cùng với việc có nó trên rhs của phương trình. Hiệu quả của việc này chỉ đơn giản là trừ đi 1 từ hệ số ước tính Numbers
, từ đó đảo ngược hiệu ứng của phần bù và sẽ không làm thay đổi kết quả. Ví dụ sau đây, với một vài dòng đầu ra không liên quan được loại bỏ, chứng minh điều này:
library(MASS)
Numbers <- rpois(100,12)
p <- 1 / (1 + exp(0.25*Numbers))
y <- rbinom(100, Numbers, p)
Incident <- pmin(y, 1)
> summary(glm(Incident~Numbers, family="binomial"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3121 -1.0246 -0.8731 1.2512 1.7465
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.99299 0.80624 1.232 0.2181
Numbers -0.11364 0.06585 -1.726 0.0844 . <= COEFFICIENT WITH NO OFFSET TERM
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 135.37 on 99 degrees of freedom
Residual deviance: 132.24 on 98 degrees of freedom
AIC: 136.24
> summary(glm(Incident~Numbers, offset=Numbers, family="binomial"))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3121 -1.0246 -0.8731 1.2512 1.7465
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.99299 0.80624 1.232 0.218
Numbers -1.11364 0.06585 -16.911 <2e-16 *** <= COEFFICIENT WITH OFFSET TERM
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 342.48 on 99 degrees of freedom
Residual deviance: 132.24 on 98 degrees of freedom
AIC: 136.24
Lưu ý cách mọi thứ đều giống nhau ngoại trừ hệ số Số và độ lệch null (và thống kê t, vì nó vẫn đang kiểm tra so với 0 thay vì -1.)
t1−(1−pt)NtNtt pt là xác suất trên mỗi bệnh nhân của một sự cố trong ngày t. Hàm liên kết thông thường, logit, sẽ tham số hóa này làđăng nhập( 1 - ( 1 - pt)Nt) / Ntđăng nhập( 1 - pt). Điều này chỉ ra rằng mối quan hệ giữa xác suất quan sát 1 vào ngàyt và Ntcó thể không được mô hình hóa tốt bởi một hàm tuyến tính trên thang đo logit. (Dù sao đây cũng có thể là trường hợp, vì người ta có thể mong đợi một "ngưỡng" thô nào đó bên dưới mà chất lượng chăm sóc bệnh nhân vẫn ổn nhưng trên đó chất lượng chăm sóc bệnh nhân giảm xuống nhanh chóng.)Nt trong mẫu số thay vì tử số vẫn để lại cho bạn số mũ khó xử đó bên trong nhật ký.
Người ta cũng có thể nghi ngờ rằng xác suất trên mỗi bệnh nhân thay đổi tùy theo từng bệnh nhân, điều này sẽ dẫn đến một mô hình phân cấp phức tạp hơn, nhưng tôi sẽ không đi sâu vào vấn đề đó ở đây.
Trong mọi trường hợp, với điều này và phạm vi giới hạn của số lượng bệnh nhân bạn quan sát, thay vì sử dụng một mô hình tuyến tính trên thang đo logit, có thể tốt hơn là không tham số về mối quan hệ và nhóm số bệnh nhân thành ba hoặc bốn nhóm, ví dụ, 10-11, 12-13, 14-15 và 16-17, xây dựng các biến giả cho các nhóm đó, sau đó chạy hồi quy logistic với các biến giả ở phía bên tay phải. Điều này sẽ cho phép nắm bắt tốt hơn các mối quan hệ phi tuyến tính như "hệ thống bị quá tải khoảng 16 bệnh nhân và các sự cố bắt đầu lan rộng đáng kể". Nếu bạn có phạm vi bệnh nhân rộng hơn nhiều, tôi sẽ đề xuất một mô hình phụ gia tổng quát, ví dụ: 'gam' từ gói 'mgcv'.