Ứng dụng phù hợp của phân tích sinh tồn

Tôi có một thí nghiệm sẽ tạo ra các quan sát về thời gian cho đến khi một sự kiện xảy ra. Một số tính chất cơ bản là

Chúng tôi đếm số lượng sự kiện đã xảy ra tại một số điểm . $t_1,...,t_n$
Thời gian sự kiện là khoảng thời gian được kiểm duyệt, giữa , $(t-1,t]$
Các cá nhân sẽ không rời khỏi thử nghiệm giữa , đó là một cá nhân trải nghiệm sự kiện trước hoặc không, tại thời điểm đó họ bị kiểm duyệt, $t_1,...t_n$ $t_1$
Một tỷ lệ lớn các cá nhân sẽ không nhận được sự kiện bằng , khi chúng tôi chấm dứt thử nghiệm và $t_n$
Tôi không thể giả sử bất kỳ mô hình phân rã tham số cơ bản.

Nó dường như là một ứng dụng tự nhiên để phân tích sinh tồn. Tuy nhiên, thật phức tạp bởi thực tế là việc lặp lại thử nghiệm từ cùng một cấu hình ban đầu nhiều lần. Trong thực tế, chúng ta sẽ có một tập hợp các sự kiện (trong đó là số lượng mẫu) cho mỗi thời gian quan sát . Tôi còn khá mới đối với thống kê và tôi đang cố gắng xem cách áp dụng phân tích sinh tồn cho dữ liệu này (nếu nó thậm chí có thể áp dụng và không có phương pháp nào phù hợp hơn để đo loại dữ liệu theo thời gian này). Xu hướng của tôi là xây dựng hàm tồn tại xung quanh số lượng trung bình của các sự kiện được quan sát tại mỗi khoảng thời gian (ví dụ: $m_{1,...,s}$ $s$ $t_i$ $\bar{m}_{1,...,n}$ ), nên ước tính tốt hơn số lượng sự kiện dự kiến ở mỗi khoảng thời gian trong dân số, tuy nhiên tôi không biết liệu điều này có phù hợp hay không có ý nghĩa gì.

Tôi đã tìm kiếm vô ích trên Google Scholar, nếu có ai có thể chỉ cho tôi nhiều tài liệu hơn (hoặc đưa cho tôi danh pháp chính xác cho những gì tôi đang cố gắng làm), nó sẽ được đánh giá cao.

Biên tập

Cho rằng các khoảng là đồng nhất trên tất cả các mẫu, giả sử rằng tôi có ma trận sau mô tả số lượng cá thể tích lũy mà một sự kiện đã xảy ra trong mỗi khoảng $(t-1, t]$

$M = \left(\begin{array}{ccc} 0 & 24 & 35 & 52 & 60 & 71 \\ 0 & 22 & 38 & 57 & 64 & 75 \\ 0 & 26 & 34 & 55 & 62 & 72 \\ 0 & 21 & 32 & 52 & 61 & 73 \end{array}\right)$

trong đó mỗi hàng đưa ra số đếm sự kiện cho cùng một nhóm các cá nhân có nguy cơ tại trên tất cả các mẫu (tức là nhiều trường hợp của thử nghiệm) và mỗi cột là một khoảng quan sát. Tôi giả sử rằng bằng cách lấy số lượng sự kiện trung bình cho mỗi khoảng thời gian, tôi có thể ước tính tốt hơn về tỷ lệ sống của dân số dự kiến, vì vậy hãy biểu thị số lượng khoảng thời gian, biểu thị số lượng mẫu (ví dụ thí nghiệm), sau đó là vectơ $t=0$ $n$ $s$

$\bar{M} = \left[ {{\sum_{i=1}^{s}M_{it}}\over{s}} \right]_{t=1...n}$

sẽ là số trung bình của các sự kiện được quan sát cho mỗi khoảng thời gian.

Sau đó, mục tiêu của tôi là sử dụng điều này làm đầu vào cho ước tính tỷ lệ sống. Gọi là số lượng cá thể có nguy cơ khi . Sử dụng công cụ ước tính ngây thơ (hiện tại, cho rằng các khoảng thời gian sự kiện là thống nhất trên tất cả các mẫu và không có kiểm duyệt cho đến ), chức năng sống sót có thể được ước tính là: $f$ $t=0$ $t_n$

$S(t) = {{f - \bar{M}_t}\over{f}}$

Điều này (hy vọng) sẽ là một ước tính tốt hơn về tỷ lệ sống của dân số so với bất kỳ mẫu riêng lẻ nào (một hàng từ ). Để cải cách câu hỏi của tôi: $M$

Là một đầu vào phù hợp với một ước lượng chức năng sống sót? Tôi chưa thấy cách tiếp cận này trong bất kỳ tài liệu nào tôi đã đọc. $\bar{M}$
Như tôi thực sự, một người mới làm thống kê, có thể chỉ cho tôi một số tài liệu (tài liệu học thuật, sách giáo khoa, wiki, v.v.) sẽ ổn khi ước tính khoảng tin cậy và phương sai cho ước tính chức năng sống sót này? Tôi đoán nó sẽ không giống với công thức tiêu chuẩn.

Xin lỗi nếu câu hỏi ban đầu của tôi khó hiểu, có lẽ tôi đã không bao gồm đủ thông tin.

survival

— Joachim Ziemssen
nguồn

Tôi không hoàn toàn làm theo những gì nó làm bạn bối rối. Tại sao bạn lo lắng rằng phân tích sinh tồn có thể không phù hợp ở đây? Có phải bạn đang chỉ nhìn vào những khoảng thời gian riêng biệt?

— gung - Phục hồi Monica

Tôi thực sự bối rối khi có nhiều số sự kiện được quan sát cho mỗi khoảng thời gian. Tất cả những cuốn sách tôi đã đọc, đặc biệt (Kleinbaum và Klein, 2012), hy vọng bạn sẽ xây dựng chức năng sinh tồn của mình cho một mẫu duy nhất. Trên thực tế, tôi đang lấy nhiều mẫu dân số và cố gắng ước tính hàm sống sót dân số thực sự, sau đó tôi sẽ so sánh giữa các quần thể theo các phương pháp điều trị khác nhau bằng cách sử dụng thử nghiệm logrank (vì tôi chưa đưa ra các biến giải thích). Đối với mỗi mẫu, sẽ hiển thị tốc độ phân rã hơi khác nhau cho cùng một cá nhân.

m_{1}, . . ., s

$m_1,...,s$

— Joachim Ziemssen

Câu trả lời:

Gần đây tôi đã có một bộ dữ liệu sinh tồn bị kiểm duyệt, vì vậy tôi biết chính xác những gì bạn cần. Nếu bạn đã từng sử dụng R, điều này sẽ giúp.

Nếu bạn không muốn sử dụng một hình thức tham số, làm thế nào về một mô hình mối nguy theo tỷ lệ Cox bị kiểm duyệt? Các intcoxgói phần mềm đó sẽ làm điều này là không còn trong Rkho. Tôi sẽ đề nghị giảm thời gian sống sót và sau đó sử dụng coxphchức năng từ survivalthư viện. Hãy nhớ rằng các lỗi tiêu chuẩn của bạn sẽ quá thấp khi sử dụng phương pháp này; bạn đã không tính đến sự không chắc chắn của việc không biết thời gian sống sót chính xác. Nếu bạn muốn ước tính tỷ lệ sống bị kiểm duyệt, hãy sử dụng icfitchức năng từ intervalgói.

Một cách khác để phân tích ảnh hưởng của hiệp phương sai đối với thời gian tồn tại là sử dụng phương pháp hồi quy không kiểm duyệt, không kiểm tra. Xem Rgói ICE: http://cran.r-project.org/web/packages/ICE/ICE.pdf . Trước tiên, bạn cần phải tính điểm giữa của thời gian tồn tại, sau đó bạn thực hiện hồi quy tuyến tính cục bộ bằng cách sử dụng locpolyhàm từ npgói. Nó không khó như âm thanh.

— chuông báo
nguồn

Cảm ơn, tôi đang sử dụng R / Mathicala và có lẽ tôi sẽ sử dụng các gói đó (và tôi chưa nghe nói về intcox!) Khi thực sự làm điều này. Tuy nhiên, hiện tại, vấn đề của tôi (mà tôi đã thêm vào câu hỏi) là có nhiều mẫu phân rã của cùng một cá nhân trong cùng một khoảng thời gian. Hãy nghĩ về nó như lặp lại thời gian một thử nghiệm , tôi đang cố gắng sử dụng dữ liệu đó để ước tính tốt hơn chức năng sinh tồn.

s

$s$

— Joachim Ziemssen

Tôi nghĩ chúng ta cũng bối rối - làm thế nào cùng một cá nhân có thể có nhiều tỷ lệ sâu răng? Một quan sát không thể có nhiều giá trị cho một biến phụ thuộc. Tôi nghĩ bạn nên coi những điều này như những quan sát riêng biệt. Dù sao, sẽ không có vấn đề gì khi sử dụng làm ước tính sinh tồn của bạn cho quan sát đó.

\bar{M}

$\bar{M}$

— wcampbell

Vấn đề thú vị ... Tôi sẽ sử dụng làm dữ liệu sinh tồn của bạn nhưng có lẽ bạn muốn nói về phương sai của thời gian phân rã cho cùng một máy tính.

\bar{M}

$\bar{M}$

— wcampbell

Vấn đề là nó là một vấn đề thú vị! Tôi sẽ tiếp tục làm việc này và xem xét phương sai, cảm ơn rất nhiều vì lời khuyên.

— Joachim Ziemssen

Hàm tồn tại thường là liên tục phải vì nó là hàm phân phối, tôi sẽ sử dụng làm khoảng. $a_k:=[t_{k-1}, t_k),k=1,2,\cdots,n$

Đặt và là thời gian tồn tại và kiểm duyệt liên tục thực sự cho đối tượng trong mẫu , tương ứng. Cả hai biến có thể không được quan sát trực tiếp, nhưng chỉ trong một trong các khoảng . Hơn nữa, hãy để biểu thị khoảng thời gian rơi, về cơ bản là thời gian tồn tại riêng biệt và tương tự cho . Sau đó, chỉ báo kiểm duyệt được đưa ra bởi . $T_{ij}$ $C_{ij}$ $j$ $i$ $a_1,a_2,\cdots$ $X_{ij}$ $T_{ij}$ $\mathcal{C}_{ij}$ $C_{ij}$ $\delta_{ij}=\mathbf{1}(X_{ij} \le \mathcal{C}_{ij})$

Hàm nguy hiểm cho thời gian tồn tại riêng biệt được xác định là xác suất có điều kiện của sự kiện xảy ra trong khoảng thời gian thứ cho rằng nó không xảy ra trước khoảng thời gian , tức là $h_{ij}(x)$ $x$ $x-1$

h_{i j} (x) = P (X_{i j} = x | X_{i j} \geq x)

$h_{ij}(x)=P(X_{ij}=x | X_{ij} \ge x)$

và hàm tồn tại tương ứng có thể được viết đệ quy bằng luật sản phẩm có điều kiện: $S_{ij}=P(X>x)$

S_{i j} (x) = P (X_{i j} > x | X_{i j} \geq x) \dots P (X_{i j} > 1 | X_{i j} \geq 1) = \prod_{m = 1}^{x} (1 - h_{i j} (m))

$S_{ij}(x)=P(X_{ij}>x | X_{ij}\ge x)\cdots P(X_{ij}>1 | X_{ij} \ge 1)=\prod_{m=1}^x (1-h_{ij}(m))$

Hàm khả năng của cặp có thể được xây dựng dưới dạng sản phẩm của hai loại đối tượng, cụ thể là những người đã trải qua một sự kiện tại ( ) và những người bị kiểm duyệt tại ( ): $(x_{ij},\delta_{ij})$ $x_{ij}$ $X_{ij}=x_{ij},\delta_{ij}=1$ $x_{ij}$ $X_{ij}>x_{ij},\delta_{ij}=0$

\begin{aligned} L & = \prod_{i = 1}^{s} \prod_{j = 1}^{n_{i}} [P (X_{i j} = x_{i j})]^{δ_{i j}} [P (X_{i j} > x_{i j})]^{1 - δ_{i j}} \\ = \prod_{i = 1}^{s} \prod_{j = 1}^{n_{i}} {{(h_{i j} (x_{i j}) \prod_{m = 1}^{x_{i j} - 1} [1 - h_{i j} (m)])}^{δ_{i j}} {(\prod_{m = 1}^{x_{i j}} [1 - h_{i j} (m)])}^{1 - δ_{i j}}} \\ = \prod_{i = 1}^{s} \prod_{j = 1}^{n_{i}} {{[\frac{h_{i j} (x_{i j})}{1 - h_{i j} (x_{i j})}]}^{δ_{i j}} \prod_{m = 1}^{x_{i j}} [1 - h_{i j} (m)]} . \end{aligned}

$\begin{split} \mathcal{L} &= \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}[P(X_{ij}=x_{ij})]^{\delta_{ij}}[P(X_{ij}>x_{ij})]^{1-\delta_{ij}}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left(h_{ij}(x_{ij})\prod_{m=1}^{x_{ij}-1}[1-h_{ij}(m)]\right)^{\delta_{ij}}\left( \prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right)^{1-\delta_{ij}}\right\}\\ & = \prod_{i=1}^{s}\prod_{j=1}^{n_{i}}\left\{\left[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}\right]^{\delta_{ij}}\prod_{m=1}^{x_{ij}}[1-h_{ij}(m)]\right\}. \end{split}$ và hàm khả năng đăng nhập tương ứng là:

ℓ = \sum_{i = 1}^{M} \sum_{j = 1}^{n_{i}} {δ_{i j} \log [\frac{h_{i j} (x_{i j})}{1 - h_{i j} (x_{i j})}] + \sum_{m = 1}^{x_{i j}} \log [1 - h_{i j} (m)]}

$\ell=\sum_{i=1}^{M}\sum_{j=1}^{n_{i}}\left\{\delta_{ij}\log[\frac{h_{ij}(x_{ij})}{1-h_{ij}(x_{ij})}]+\sum_{m=1}^{x_{ij}}\log[1-h_{ij}(m)]\right\}$

Bây giờ nếu chúng ta xây dựng lại dữ liệu của mình thành cấu trúc lịch sử sự kiện, đó là ghi lại ở mỗi khoảng thời gian, một biến chỉ báo sự kiện cho khoảng thứ của chủ đề thứ từ mẫu , chúng ta có thể thấy ở trên viết lại thành (về cơ bản tổng hợp tất cả 0 cho đến khoảng thời gian quan sát cuối cùng của chủ đề này, nếu anh ta có sự kiện, nó sẽ là 1, nếu bị kiểm duyệt 0). Sau đó, chúng tôi có thể viết lại khả năng đăng nhập của mình là $y_{ijk}$ $k$ $j$ $i$ $\delta_{ij}\log[h_{ij}(x_{ij})/(1-h_{ij}(x_{ij})]$ $\sum_{k=1}^{x_{ij}}y_{ijk} \log[h_{ij}(k)/(1-h_{ij}(k))]$

ℓ = \sum_{i = 1}^{s} \sum_{j = 1}^{n_{i}} \sum_{k = 1}^{x_{i j}} {y_{i j k} \log h_{i j} (k) + (1 - y_{i j k}) \log [1 - h_{i j} (k)]} .

$\ell=\sum_{i=1}^s \sum_{j=1}^{n_i} \sum_{k=1}^{x_{ij}} \left\{ y_{ijk} \log h_{ij}(k) + (1 - y_{ijk}) \log [1 - h_{ij}(k)] \right\}.$ Điều này giống hệt với khả năng đăng nhập của biến ngẫu nhiên nhị phân , nhưng bây giờ với tỷ lệ cho một sự kiện trong khoảng được xác định bởi .

y_{i j k}

$y_{ijk}$

p_{i j k}

$p_{ijk}$

k

$k$

h_{i j} (k)

$h_{ij}(k)$

Bây giờ chúng tôi cuối cùng có thể trả lời câu hỏi của bạn. Nếu chúng ta giả sử rằng ở cùng một khoảng thời gian, là iid cho các đối tượng khác nhau trong mẫu và cũng trên các mẫu khác nhau, thì là công cụ ước tính thích hợp cho . $y_{ijk}$ $j$ $i$ $\bar{M_j}=(\sum_i n_i)^{-1}\sum_{i=1}^{s}\sum_{j=1}^{n_i}y_{ijk}$ $h_{ij}(k)=h(k)$

Và công cụ ước tính thích hợp cho là do đó . $S(x)$ $\hat{S}(x)=\prod_{k=1}^{x}(1-\bar{M}_j)$

— jujae
nguồn