Mô hình nguy hiểm theo tỷ lệ Cox và mẫu không được chọn ngẫu nhiên

9

Có phương pháp nào để điều chỉnh sai lệch trong mô hình nguy cơ theo tỷ lệ Cox gây ra bởi mẫu không được chọn ngẫu nhiên (một cái gì đó giống như hiệu chỉnh của Heckman) không?

Bối cảnh :
Hãy nói rằng tình huống có vẻ như sau:
- Trong hai năm đầu tiên, tất cả khách hàng đều được chấp nhận.
- Sau hai năm, một mô hình Cox PH được xây dựng. Mô hình dự đoán khách hàng sẽ sử dụng dịch vụ của chúng tôi trong bao lâu.
- Do chính sách của công ty kể từ bây giờ, chỉ những khách hàng có xác suất sống sót sau 3 tháng lớn hơn 0,5 mới được chấp nhận, những người khác bị từ chối.
- Sau hai năm nữa, một mô hình mới cần được xây dựng. Vấn đề là chúng tôi chỉ nhắm mục tiêu cho các khách hàng được chấp nhận và chỉ sử dụng những khách hàng này có thể gây ra một số sai lệch nghiêm trọng.

bias cox-model

— Tomek Tarczynski
nguồn

1

Điểm của phân tích này là gì? Mô hình Cox PH không dự đoán rõ ràng thời gian đến thất bại trừ khi bạn kết hợp một số phương pháp làm mịn hoặc mô hình tham số. Những biến phân tầng / điều chỉnh nào trong mô hình này?

— AdamO

4

Có các giải pháp đề xuất cho các mô hình nguy hiểm tham số. Hãy xem những điều này:

Prieger, James, 2000. "Một mô hình lựa chọn tham số tổng quát cho dữ liệu không bình thường", Tài liệu làm việc 00-9, Đại học California tại Davis, Bộ Kinh tế.

Boehmke, Frederick J., Daniel Morey và Megan Shannon. 2006. "Xu hướng lựa chọn và các mô hình thời lượng liên tục: Hậu quả và giải pháp đề xuất." Tạp chí Khoa học Chính trị Hoa Kỳ 50 (1): 192-207.

Có mã cho bài báo sau trong Stata, gói "dursel"

Tuy nhiên, tôi không biết về một giải pháp cho mô hình Cox semiparametric.

— jorpppp
nguồn

Vấn đề với việc tính toán các cách tiếp cận tham số với Mô hình Cox bán tham số là vấn đề cụ thể này thực sự có liên quan đến một dữ liệu bị thiếu. Mặc dù tác giả đã không mô tả cách anh ta đạt được dự đoán rủi ro tuyệt đối từ mô hình Cox, do chúng tôi có dự đoán rủi ro như vậy dựa trên các tham số mô hình (và ước tính của hàm rủi ro cơ sở), xác suất đưa vào giai đoạn thứ hai của dữ liệu thu thập phụ thuộc vào dự đoán rủi ro ban đầu, do đó, sự thiếu hụt phụ thuộc vào các biến quan sát, tức là thiếu ở dữ liệu ngẫu nhiên.

— AdamO

2

Câu trả lời đơn giản là trọng số. Nghĩa là, bạn có thể sử dụng quyền số để chuẩn hóa các nhóm trong nhóm "được chấp nhận" cho dân số quan tâm. Vấn đề nảy sinh từ việc sử dụng các trọng số như vậy trong phân tích gộp sử dụng cả hai giai đoạn 2 năm thứ nhất và thứ hai là trọng lượng dân số ước tính và các tham số hiện phụ thuộc. Phương pháp giả ngẫu nhiên thường được sử dụng (trong trường hợp này, đó sẽ là một loại khả năng giả một phần) khi bạn bỏ qua sự phụ thuộc giữa trọng lượng mẫu và ước tính tham số. Tuy nhiên, trong nhiều trường hợp thực tế (và điều này không khác), việc tính toán sự phụ thuộc này là cần thiết. Vấn đề tạo ra một công cụ ước tính hiệu quả của các tỷ lệ nguy hiểm là một vấn đề khó khăn, và theo như tôi biết đã kết thúc mở.

Cải thiện ước tính Horvitz-Thompson về các thông số mô hình từ các mẫu phân tầng hai pha: Các ứng dụng trong dịch tễ học .

Bài viết thảo luận về các phương pháp khảo sát, thường được áp dụng trong hồi quy logistic, tuy nhiên bạn cũng có thể cân dữ liệu sinh tồn. Một số cân nhắc quan trọng mà bạn đã bỏ qua đề cập đến là liệu bạn có quan tâm đến việc tạo dự đoán áp dụng cho toàn bộ dân số hay cho dân số "đủ điều kiện" dựa trên ước tính 2 năm hoặc dân số "đủ điều kiện" dựa trên kết quả mô hình. Bạn cũng chưa đề cập chính xác cách tạo mô hình "dự đoán" như vậy từ mô hình Cox, vì các giá trị được trang bị từ mô hình Cox không thể được hiểu là rủi ro. Tôi đoán bạn ước tính các tỷ lệ nguy hiểm, sau đó có được ước tính trơn tru của chức năng nguy hiểm cơ bản.

— Adam
nguồn