Mô hình hóa tỷ lệ tử vong bằng hồi quy Poisson


8

Tôi đang kiểm tra xu hướng (từ năm 1998 đến 2011) về tỷ lệ tử vong ở những bệnh nhân mắc bệnh Crohn. Mỗi bệnh nhân (trường hợp) đã được đưa vào từ năm 1998 đến năm 2011. Khi đưa vào, mỗi bệnh nhân đã được kết hợp với một kiểm soát lành mạnh với cùng độ tuổi và giới tính. Tôi đang phân tích xu hướng tỷ lệ tử vong. Khi thực hiện điều này trực tiếp, không có bất kỳ sự điều chỉnh nào, tôi có được tỷ lệ tử vong dao động theo thời gian, điều này có lẽ là do thực tế là các cá nhân bao gồm một năm nhất định sẽ không thể so sánh với những năm khác. Vì vậy, tôi nhằm mục đích điều chỉnh tỷ lệ tử vong. Tôi hy vọng rằng tỷ lệ tử vong ở cả hai nhóm (trường hợp và kiểm soát) sẽ giảm theo thời gian và khoảng cách giữa các trường hợp và kiểm soát sẽ thu hẹp liên tiếp.

Ý tưởng của tôi là thực hiện điều chỉnh bằng phương pháp hồi quy Poisson. Dữ liệu của tôi là ở cấp độ cá nhân. Tôi muốn có được một ước tính về tỷ lệ mới mắc (trên 1000 người-năm) cho các trường hợp và kiểm soát mỗi năm từ năm 1998 đến năm 2011. Thời gian sống sẽ được đưa vào như là phần bù trong mô hình. Một cái gì đó tương tự đã được thực hiện ở đây .

Tôi đã đính kèm 200 hàng đầu tiên từ bộ dữ liệu của mình, bao gồm 1500 cá nhân. Đây là dữ liệu . Giải thích về biến:

  • chết = nếu bệnh nhân chết hay không trong quá trình theo dõi
  • sống sót = thời gian sống sót trong ngày
  • agegroup = nhóm tuổi được phân loại (4 nhóm)
  • giới tính = nam / nữ
  • chẩn đoán = 0 cho kiểm soát khỏe mạnh, 1 cho bệnh Crohns
  • tuổi = tuổi trong năm
  • incusion_year = năm đưa vào nghiên cứu

Tôi đã thử những gì cho đến nay? Tôi đã cố điều chỉnh các mô hình Poisson với hàm glm () trong R, sử dụng các quan sát riêng lẻ (log (tồn tại) làm phần bù), nhưng tôi đã nhận được lỗi hoặc không thể tìm ra cách sử dụng khớp. Tôi cũng đã tổng hợp dữ liệu thành các nhóm và sau đó phân tích số tử vong trong glm (); khi tôi sử dụng mức độ phù hợp để đạt được tỷ lệ mới mắc, tôi chỉ có thể đạt được tỷ lệ cho một nhóm tuổi / nhóm cụ thể và giới tính (khi cần được chỉ định trong hàm dự đoán ()).

Tôi thực sự đánh giá cao một số lời khuyên thống kê và ví dụ mã hóa, có thể được thực hiện trên tập dữ liệu đính kèm.


1
Tôi đã nhận được một lỗi hoặc không thể tìm ra làm thế nào để sử dụng phù hợp Lỗi gì? Tôi đã sử dụng Stata để phù hợp với dữ liệu của bạn và chúng vẫn ổn (ngoài bạn chỉ bao gồm một giới tính trong 50 trường hợp đầu tiên và giới tính phải được đưa ra ngoài.)
Penguin_Knight

1
Bạn có thể đạt được một tỷ lệ mới mắc (trên 1000 người mỗi năm) cho mỗi năm trong các trường hợp và biện pháp kiểm soát không? Bạn đã tổng hợp dữ liệu thành các nhóm hoặc bạn có phù hợp với mô hình với dữ liệu cấp độ cá nhân không? Đây là mã và kết quả (sử dụng các quan sát riêng lẻ):> glm (chết ~ tuổi + giới tính + yếu tố (chẩn đoán) + yếu tố (incusion_year), offset = log (tồn tại), data = data1, Family = "poisson") in contrasts<-( *tmp*, value = contr.fun [1 + isOF [nn]]): chỉ có thể áp dụng độ tương phản cho các yếu tố có 2 cấp trở lên
Frank49 13/12/14

Nếu bạn cần các giá trị dự đoán cho trường hợp và kiểm soát riêng trong từng năm, bạn có thể cần kết hợp một tập hợp các diagnosis*inclusion_yearthuật ngữ tương tác. Nếu bạn chỉ sử dụng mô hình hiện tại, trường hợp num sẽ chỉ khác nhau bởi beta diagnosis, không đổi theo năm vì nó không được phép tương tác. Sau đó, các dự đoán sẽ chỉ là sự thay thế. Tôi không quá kén chọn nên tôi chỉ phụ độ tuổi trung bình và tỷ lệ nam trung bình.
Penguin_Knight

Cảm ơn Penguin_knight cho câu trả lời của bạn, tôi thực sự đánh giá cao nó! Mặc dù tôi vẫn không biết liệu tôi nên tổng hợp dữ liệu thành các nhóm hoặc điều chỉnh mô hình theo dữ liệu cấp độ cá nhân?
Frank49

Tôi bối rối bởi thiết lập này. Làm thế nào bạn đối phó với kiểm duyệt?
Glen_b -Reinstate Monica

Câu trả lời:


2

Không nhìn thấy tập dữ liệu (không có sẵn) có vẻ như hầu hết là chính xác. Điều hay ho về hồi quy Poisson là chúng có thể cung cấp mức giá khi được sử dụng như đề xuất. Một điều có thể đáng lưu ý là có thể có sự quá mức trong đó bạn nên chuyển sang hồi quy nhị thức âm (xem gói MASS).

Hồi quy Poisson không quan tâm liệu dữ liệu có được tổng hợp hay không, nhưng trong thực tế, dữ liệu không tổng hợp là yếu và có thể gây ra một số lỗi không mong muốn. Lưu ý rằng bạn không thể có surv == 0bất kỳ trường hợp nào. Khi tôi đã kiểm tra các ước tính là như nhau:

set.seed(1)
n <- 1500
data <- 
  data.frame(
    dead = sample(0:1, n, replace = TRUE, prob = c(.9, .1)),
    surv = ceiling(exp(runif(100))*365),
    gender = sample(c("Male", "Female"), n, replace = TRUE),
    diagnosis = sample(0:1, n, replace = TRUE),
    age = sample(60:80, n, replace = TRUE),
    inclusion_year = sample(1998:2011, n, replace = TRUE)
  )

library(dplyr)
model <- 
  data %>% 
  group_by(gender, 
           diagnosis,
           age,
           inclusion_year) %>% 
  summarise(Deaths = sum(dead),
            Person_time = sum(surv)) %>%
  glm(Deaths ~ gender + diagnosis + I(age - 70) + I(inclusion_year - 1998) + offset(log(Person_time/10^3/365.25)), 
      data = . , family = poisson)

alt_model <- glm(dead ~ gender + diagnosis + I(age - 70) + I(inclusion_year - 1998) + offset(log(surv/10^3/365.25)), 
    data = data , family = poisson)
sum(coef(alt_model) - coef(model))
# > 1.779132e-14
sum(abs(confint(alt_model) - confint(model)))
# > 6.013114e-11

Khi bạn nhận được một tỷ lệ, điều quan trọng là phải căn giữa các biến để việc chặn có thể hiểu được, ví dụ:

> exp(coef(model)["(Intercept)"])
(Intercept) 
    51.3771

Có thể được hiểu là tỷ lệ cơ sở và sau đó các hiệp phương sai là tỷ lệ lãi suất. Nếu chúng tôi muốn lãi suất cơ bản sau 10 năm:

> exp(coef(model)["(Intercept)"] + coef(model)["I(inclusion_year - 1998)"]*10)
(Intercept) 
     47.427 

Hiện tại tôi đã mô hình hóa năm bao gồm như một biến xu hướng nhưng có lẽ bạn nên kiểm tra tính phi tuyến và đôi khi việc phân loại các mốc thời gian là rất hữu ích. Tôi đã sử dụng phương pháp này trong bài viết này:

D. Gordon, P. Gillgren, S. Eloranta, H. Olsson, M. Gordon, J. Hansson và KE Smedby. nghiên cứu dựa trên cơ sở, leo Melanoma Res., tập. 25, không 4, tr.33 34956, tháng 8/2015.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.