Làm cách nào để xác định xem một mô hình tồn tại với dữ liệu bị thiếu có phù hợp không?


9

Đơn giản hóa một chút, tôi có khoảng một triệu hồ sơ ghi lại thời gian vào và thời gian thoát của mọi người trong một hệ thống kéo dài khoảng mười năm. Mọi bản ghi đều có thời gian vào, nhưng không phải bản ghi nào cũng có thời gian thoát. Thời gian trung bình trong hệ thống là ~ 1 năm.

Thời gian thoát bị mất xảy ra vì hai lý do:

  1. Người chưa rời khỏi hệ thống tại thời điểm dữ liệu được ghi lại.
  2. Thời gian thoát của người không được ghi lại. Điều này xảy ra để nói 50% hồ sơ

Các câu hỏi quan tâm là:

  1. Có phải mọi người dành ít thời gian hơn trong hệ thống, và thời gian ít hơn bao nhiêu.
  2. Là nhiều lần thoát được ghi lại, và bao nhiêu.

Chúng ta có thể mô hình hóa điều này bằng cách nói rằng xác suất mà một lối thoát được ghi lại thay đổi tuyến tính theo thời gian và thời gian trong hệ thống có một Weibull có các tham số thay đổi tuyến tính theo thời gian. Sau đó chúng ta có thể ước tính khả năng tối đa của các thông số khác nhau và nhãn cầu kết quả và cho rằng chúng hợp lý. Chúng tôi đã chọn phân phối Weibull vì dường như nó được sử dụng để đo thời gian sống và rất vui khi nói thay vì điều chỉnh dữ liệu tốt hơn so với phân phối gamma.

Tôi nên tìm ở đâu để có manh mối về cách làm điều này một cách chính xác? Chúng tôi có chút hiểu biết về toán học, nhưng không phải là cực kỳ hiểu biết về thống kê.

Câu trả lời:


5

Cách cơ bản để xem liệu dữ liệu của bạn có phải là Weibull hay không là vẽ sơ đồ nhật ký các mối nguy tích lũy so với nhật ký thời gian và xem liệu một đường thẳng có phù hợp hay không. Nguy cơ tích lũy có thể được tìm thấy bằng cách sử dụng công cụ ước tính không tham số Nelson-Aalen. Có các chẩn đoán đồ họa tương tự cho hồi quy Weibull nếu bạn khớp dữ liệu của mình với các đồng biến và một số tham chiếu theo sau.

Văn bản Klein & Moeschberger là khá tốt và bao gồm rất nhiều nền tảng với xây dựng mô hình / chẩn đoán cho các mô hình tham số và bán tham số (mặc dù chủ yếu là sau này). Nếu bạn đang làm việc ở R, cuốn sách của Theneau khá hay (tôi tin rằng anh ấy đã viết gói sinh tồn ). Nó bao gồm rất nhiều Cox PH và các mô hình liên quan, nhưng tôi không nhớ là nó có bao phủ nhiều mô hình tham số không, như mô hình bạn đang xây dựng.

BTW, đây có phải là một triệu đối tượng, mỗi đối tượng có một sự kiện vào / ra hoặc tái diễn / sự kiện lặp lại cho một số nhóm người nhỏ hơn không? Bạn có điều chỉnh khả năng của bạn để giải thích cho cơ chế kiểm duyệt?


Cảm ơn, đây chỉ là những gì tôi đang tìm kiếm. Đây thực chất là một triệu đối tượng mỗi người có thời gian vào và ra. Có, chúng tôi đang điều hòa để kiểm duyệt.
bắt đầu từ

2

Bạn có thể sử dụng mô hình ước tính để dự đoán thời gian thoát cho tất cả những người trong hệ thống của bạn. Sau đó, bạn có thể so sánh thời gian thoát ước tính với thời gian thoát thực tế (nơi bạn có dữ liệu này) và tính toán một số liệu như RMSE để đánh giá dự đoán của bạn sẽ mang lại cho bạn cảm giác phù hợp với mô hình như thế nào. Xem thêm liên kết này .


1
Với một điểm millon và một mô hình 8 tham số, một điểm tốt của kiểm tra sự phù hợp như chi bình phương cho tôi biết rằng về cơ bản không có khả năng mô hình đó là chính xác. (Điều này không đáng ngạc nhiên, vì có những yếu tố vô tận ảnh hưởng đến thực tế không có trong mô hình) RMSE cho tôi cảm giác mô hình phù hợp với dữ liệu như thế nào, nhưng không cho tôi biết liệu có mô hình nào tốt hơn không
vào

Để tìm hiểu xem có mô hình nào tốt hơn không, bạn có thể thử nghiệm các công thức khác nhau hoặc bạn có thể sử dụng các lô khác nhau (ví dụ: thời gian thoát so với thời gian) để xem liệu dữ liệu có phù hợp với giả định mô hình của bạn không. Bạn cũng có thể vẽ thời gian thoát dự đoán cho một mẫu nhỏ được chọn vào thời gian thực tế ngẫu nhiên để lấy ý tưởng cải tiến mô hình.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.