Đơn giản hóa một chút, tôi có khoảng một triệu hồ sơ ghi lại thời gian vào và thời gian thoát của mọi người trong một hệ thống kéo dài khoảng mười năm. Mọi bản ghi đều có thời gian vào, nhưng không phải bản ghi nào cũng có thời gian thoát. Thời gian trung bình trong hệ thống là ~ 1 năm.
Thời gian thoát bị mất xảy ra vì hai lý do:
- Người chưa rời khỏi hệ thống tại thời điểm dữ liệu được ghi lại.
- Thời gian thoát của người không được ghi lại. Điều này xảy ra để nói 50% hồ sơ
Các câu hỏi quan tâm là:
- Có phải mọi người dành ít thời gian hơn trong hệ thống, và thời gian ít hơn bao nhiêu.
- Là nhiều lần thoát được ghi lại, và bao nhiêu.
Chúng ta có thể mô hình hóa điều này bằng cách nói rằng xác suất mà một lối thoát được ghi lại thay đổi tuyến tính theo thời gian và thời gian trong hệ thống có một Weibull có các tham số thay đổi tuyến tính theo thời gian. Sau đó chúng ta có thể ước tính khả năng tối đa của các thông số khác nhau và nhãn cầu kết quả và cho rằng chúng hợp lý. Chúng tôi đã chọn phân phối Weibull vì dường như nó được sử dụng để đo thời gian sống và rất vui khi nói thay vì điều chỉnh dữ liệu tốt hơn so với phân phối gamma.
Tôi nên tìm ở đâu để có manh mối về cách làm điều này một cách chính xác? Chúng tôi có chút hiểu biết về toán học, nhưng không phải là cực kỳ hiểu biết về thống kê.