Các câu hỏi cơ bản về phân tích tồn tại thời gian rời rạc


18

Tôi đang cố gắng thực hiện một phân tích tồn tại thời gian riêng biệt bằng mô hình hồi quy logistic và tôi không chắc mình hoàn toàn hiểu được quy trình. Tôi sẽ đánh giá rất cao sự giúp đỡ với một vài câu hỏi cơ bản.

Đây là thiết lập:

Tôi đang xem xét thành viên trong một nhóm trong một cửa sổ năm năm. Mỗi thành viên có một hồ sơ thành viên hàng tháng cho mỗi tháng thành viên đó trong nhóm. Tôi đang xem xét tất cả các thành viên có tư cách thành viên bắt đầu trong cửa sổ năm năm (để tránh các vấn đề "kiểm duyệt trái" với các thành viên đã tham gia trước đó). Mỗi bản ghi sẽ được lập chỉ mục theo thời gian, với thời gian một là thành viên tham gia. Vì vậy, một thành viên ở lại trong hai năm rưỡi sẽ có ba mươi hồ sơ hàng tháng, được đánh số từ một đến ba mươi. Mỗi bản ghi cũng sẽ được cung cấp một biến nhị phân, sẽ có giá trị là một cho tháng cuối cùng của thành viên và bằng không; một giá trị của một cho biến nhị phân đánh dấu sự kiện mà thành viên đã rời khỏi nhóm. Đối với mỗi thành viên có thành viên tiếp tục vượt quá cửa sổ phân tích năm năm,

Vì vậy, mô hình hồi quy logistic được xây dựng để dự đoán các giá trị của biến sự kiện nhị phân. Càng xa càng tốt. Một trong những cách điển hình để đánh giá mô hình dự đoán nhị phân là đo mức nâng trên mẫu giữ. Đối với mô hình hồi quy logistic mà tôi đã xây dựng để dự đoán sự kiện kết thúc thành viên, tôi đã tính toán mức tăng trên tập dữ liệu giữ với tỷ lệ năm đến một sự kiện cho các sự kiện. Tôi xếp các giá trị dự đoán thành deciles. Các decile với các giá trị dự đoán cao nhất chứa bảy mươi phần trăm, một thang máy hơn bốn. Hai deciles đầu tiên kết hợp chứa sáu mươi lăm phần trăm của tất cả những cái trong phần giữ. Trong một số bối cảnh nhất định, đây sẽ được coi là một mô hình dự đoán khá tốt, nhưng tôi tự hỏi liệu nó có đủ tốt để thực hiện một phân tích sinh tồn hay không.

Đặt là hàm nguy hiểm cho cá nhân trong tháng và để là xác suất để cá nhân sống sót qua tháng .j k S [ j , k ] j kh[j,k]jkS[j,k]jk

Đây là những câu hỏi cơ bản của tôi:

  1. Là chức năng nguy hiểm riêng biệt, , xác suất có điều kiện không sống sót (rời khỏi nhóm) trong mỗi tháng?h[j,k]

  2. Là các giá trị dự đoán từ các ước tính mô hình hồi quy logistic của hàm nguy hiểm? (nghĩa là bằng với giá trị dự đoán của mô hình cho từng trong tháng , hoặc có cần phải thực hiện thêm điều gì để có được ước tính hàm nguy hiểm không?)j kh[j,k]jk

  3. Là xác suất sống sót đến tháng q đối với cá nhân bằng với sản phẩm của một trừ đi chức năng nguy hiểm từ tháng thứ nhất đến , nghĩa là, ?q S [ j , q ] = ( 1 - h [ j , 1 ] ) ( 1 - h [ j , 2 ] ) ... ( 1 - h [ j , q ] )jqS[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])

  4. Giá trị trung bình của trên tất cả các cá nhân cho mỗi lần có phải là ước tính hợp lý của xác suất sống trung bình của toàn bộ dân số không?j kS[j,k]jk

  5. Một lô của dân số có nghĩa là xác suất sống sót theo tháng giống với đồ thị Kaplan-Meier hàng tháng?

Nếu câu trả lời cho bất kỳ câu hỏi nào là không, thì tôi có một sự hiểu lầm nghiêm trọng và thực sự có thể sử dụng một số trợ giúp / giải thích. Ngoài ra, có bất kỳ quy tắc nào cho việc mô hình dự đoán nhị phân cần phải tốt như thế nào để tạo ra một hồ sơ sinh tồn chính xác?


Có lẽ điều này có thể giúp bạn với một số câu hỏi của bạn
jujae

Câu trả lời:


7

Giả sử là giá trị lớn nhất của (tức là tháng / kỳ lớn nhất được quan sát trong dữ liệu của bạn).Kk

  1. Đây là hàm nguy hiểm với tham số thời gian rời rạc hoàn toàn và với một vectơ tham số một vectơ của các biến điều hòa : . Hàm nguy hiểm cũng có thể được xây dựng xung quanh các tham số hóa thay thế của thời gian (ví dụ bao gồm hoặc các hàm của nó như là một biến trong mô hình) hoặc xung quanh kết hợp cả hai.BXhj,k=eαk+BX1+eαk+BXk

    Hàm nguy hiểm logit cơ sở mô tả xác suất xảy ra sự kiện trong thời gian , có điều kiện khi tồn tại đến thời điểm . Việc thêm các yếu tố dự đoán ( ) vào mô hình sẽ hạn chế thêm điều kiện này.kkX

  2. Không, ước tính hồi quy logistic (ví dụ , , , ) không phải là các hàm nguy hiểm. Các mô hình hồi quy logistic: logit và bạn cần thực hiện chuyển đổi chống logit trong (1) ở trên để có được ước tính nguy hiểm.α^1α^KB^(hj,k)=αk+BX

  3. Đúng. Mặc dù tôi sẽ ghi chú nó . Hàm tồn tại là xác suất không gặp sự kiện theo thời gian và tất nhiên cũng có thể được điều hòa trên .S^j,q=i=1q(1hj,i)kX

  4. Đây là một câu hỏi tinh tế, không chắc chắn tôi có câu trả lời. Tôi có câu hỏi, mặc dù. :) Kích thước mẫu ở mỗi khoảng thời gian giảm dần theo thời gian do kiểm duyệt đúng và do sự kiện xảy ra: bạn có tính đến điều này trong tính toán thời gian sống sót trung bình của bạn không? Làm sao? "Dân số" nghĩa là gì? Dân số là những cá nhân được tuyển dụng để nghiên cứu của bạn khái quát đến? Hay bạn có nghĩa là một số khái niệm "siêu dân số" thống kê? Suy luận là một thách thức lớn trong các mô hình này, bởi vì chúng tôi ước tính s và các lỗi tiêu chuẩn của chúng, nhưng cần thực hiện các thao tác ngược phương thức delta để nhận các lỗi tiêu chuẩn cho và (từ công việc của riêng tôi) xuất phát các lỗi tiêu chuẩn hợp lệ choβh j , k S j , k S j , kh^j,kS^j,kchỉ hoạt động trên giấy (Tôi không thể có được trang trải CI chính xác cho trong các mô hình có điều kiện).S^j,k

  5. Bạn có thể sử dụng biểu đồ chức năng bước giống như Kaplan-Meier và bạn cũng có thể sử dụng biểu đồ đường thẳng lên (tức là kết nối các dấu chấm giữa các khoảng thời gian với một đường). Bạn chỉ nên sử dụng trường hợp sau khi khái niệm "thời gian rời rạc" thừa nhận khả năng của các khoảng thời gian được chia nhỏ. Bạn cũng có thể vẽ / giao dự toán tỷ lệ tích lũy (đó là ... ít nhất nhà dịch tễ học sẽ thường định nghĩa "tỷ lệ tích lũy" theo cách này, thuật ngữ này được sử dụng khác nhau trong việc cạnh tranh rủi ro mô hình Nhiệm kỳ. Hấp thu cũng có thể được sử dụng ở đây.).1Sj,k


Tôi nghĩ trong câu hỏi 2, OP đang hỏi về giá trị dự đoán từ mô hình hậu cần, chứ không phải ước tính của các hệ số hồi quy. Điều này có thể có liên quan
jujae

@jujae Tôi rõ ràng đã đưa ra hàm logistic trong câu trả lời của mình cho # 2 và hướng sự chú ý của OP đến việc sử dụng tính năng chống logit để chuyển đổi ước tính tham số logit thành , vì vậy tôi không hiểu nhận xét của bạn. h^(t)
Alexis

Không phải là giá trị dự đoán của mô hình logistic, xác suất thành công của rv nhị phân sao cho không cần antit logit. Đó là ? ypred=exp(βTx)/(1+exp(βTx))
jujae

Quay lại câu hỏi ban đầu 2, OP đã hỏi: "Các giá trị dự đoán từ mô hình hồi quy logistic có phải là ước tính của hàm nguy hiểm không?" Tôi sẽ nói có (nếu sự hiểu biết của tôi về giá trị dự đoán là chính xác). Và bạn đang nói không và đưa ra lập luận rằng các hệ số ước tính không giống như ước tính nguy cơ. Tôi đồng ý với tuyên bố của bạn, họ đúng nhưng đó không phải là những gì OP yêu cầu từ sự hiểu biết của tôi.
jujae

Và đối với câu hỏi 4, tôi nghĩ OP đang hỏi về xác suất sống sót ở mỗi khoảng và trung bình của ước tính thực sự là một công cụ ước tính hợp lý cho . Trong câu trả lời của bạn, trước tiên bạn đề cập đến thời gian tồn tại có nghĩa là khó hiểu đối với tôi như một người đọc. Trong khi đó, tôi cũng tin rằng công cụ ước tính mà chúng ta đang thảo luận về cơ bản là Kaplan-meier và (ví dụ) công cụ ước tính phương sai của Greenwood cho KM có thể được sử dụng trực tiếp và tôi không đánh giá cao những khó khăn mà bạn đã nêu ở trên về cách tính phương sai. S j ( k ) S ( k )kS^j(k)S(k)
jujae
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.