GLM với dữ liệu liên tục chồng chất ở mức 0


11

Tôi đang cố gắng chạy một mô hình để ước tính các căn bệnh thảm khốc như lao, AIDS, vv ảnh hưởng như thế nào đến việc nhập viện. Tôi có "chi phí nhập viện" là biến phụ thuộc và các dấu hiệu riêng lẻ khác nhau dưới dạng các biến độc lập, hầu hết tất cả đều là giả như giới tính, chủ hộ, tình trạng nghèo và tất nhiên là giả cho bạn có bị bệnh hay không (cộng với tuổi và bình phương tuổi) và một loạt các điều khoản tương tác.

Như dự kiến, có một lượng đáng kể - và ý tôi là rất nhiều - dữ liệu chồng chất ở mức 0 (nghĩa là không có chi phí nhập viện trong thời gian tham khảo 12 tháng). Điều gì sẽ là cách tốt nhất để đối phó với dữ liệu như vậy?

Đến bây giờ tôi quyết định chuyển đổi chi phí thành ln(1+cost)bao gồm tất cả các quan sát và sau đó chạy một mô hình tuyến tính. Có phải tôi đang trên đường ray bên phải không?


1
Là phản ứng của bạn thực sự là một tính? Thuật ngữ bạn đang tìm kiếm là lạm phát bằng không .
gung - Phục hồi Monica

2
Một người có thể có phân phối liên tục bằng không là tốt; có những mô hình gamma không bị thổi phồng chẳng hạn.
Glen_b -Reinstate Monica

1
@Glen_b, đó là những gì tôi đã nghĩ. Tôi chưa bao giờ làm một cái, mặc dù. Đề xuất về OLR của Frank Harrell là một cách thông minh để giải quyết vấn đề.
gung - Tái lập Monica

Câu trả lời:



8

Đóng cửa ở mức 0 được gọi là "lạm phát bằng không". Cho đến nay, các trường hợp phổ biến nhất là mô hình đếm, dẫn đến Poisson bằng 0 và hồi quy nhị thức âm thổi phồng bằng không. Tuy nhiên, có nhiều cách để mô hình lạm phát bằng 0 với các giá trị dương thực sự (ví dụ mô hình gamma không lạm phát).

Xem Min và Agresti, 2002, Mô hình hóa dữ liệu không âm với độ đông ở mức 0 để xem xét các phương pháp này.


1

Gợi ý sử dụng mô hình Poisson bằng 0 là một khởi đầu thú vị. Nó có một số lợi ích của việc cùng lập mô hình xác suất có bất kỳ chi phí nào liên quan đến bệnh tật cũng như quá trình những chi phí đó hóa ra là gì nếu bạn có bất kỳ bệnh nào. Nó có giới hạn là nó áp đặt một số cấu trúc chặt chẽ về hình dạng của kết quả, có điều kiện khi đã tích lũy bất kỳ chi phí nào (ví dụ: mối quan hệ phương sai trung bình cụ thể và kết quả số nguyên dương ... có thể được nới lỏng cho một số mục đích mô hình hóa).

Nếu bạn là okay với điều trị các nhập viện bệnh liên quan đếnchi phí bệnh tật liên quan đến điều kiện khi nhập học các quy trình một cách độc lập, bạn có thể mở rộng này bằng cách đầu tiên mô hình hóa các quá trình nhị phân của y / n bạn đã tích luỹ bất kỳ chi phí liên quan đến bệnh tật? Đây là một mô hình hồi quy logistic đơn giản và cho phép bạn đánh giá các yếu tố rủi ro và tỷ lệ hiện mắc. Do đó, bạn có thể giới hạn phân tích đối với tập hợp con của các cá nhân đã tích lũy bất kỳ chi phí nào và mô hình hóa quy trình chi phí thực tế bằng cách sử dụng một loạt các công nghệ mô hình hóa. Poisson là tốt, quasi-poisson sẽ tốt hơn (chiếm các nguồn cộng hưởng nhỏ không được đo lường trong dữ liệu và khởi hành từ các giả định mô hình). Nhưng bầu trời là giới hạn với việc mô hình hóa quá trình chi phí liên tục.

Nếu bạn thực sự cần mô hình hóa mối tương quan của các tham số trong quy trình, bạn có thể sử dụng các ước tính SE của bootstrap. Tôi thấy không có lý do tại sao điều này sẽ không hợp lệ, nhưng sẽ tò mò muốn nghe ý kiến ​​đóng góp của người khác nếu điều này có thể sai. Nói chung, tôi nghĩ đó là hai câu hỏi riêng biệt và nên được xử lý như vậy để có suy luận hợp lệ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.