Trực giác cho chức năng nguy hiểm tích lũy (phân tích sinh tồn)


17

Tôi đang cố gắng để có được trực giác cho từng chức năng chính trong khoa học chuyên gia tính toán (cụ thể là cho Mô hình Nguy cơ theo tỷ lệ Cox). Đây là những gì tôi có cho đến nay:

  • f(x) : bắt đầu từ thời điểm bắt đầu, phân phối xác suất khi nào bạn sẽ chết.
  • F(x) : chỉ phân phối tích lũy. Tại thời điểm , bao nhiêu% dân số sẽ chết?T
  • S(x) : . Tại thời điểm , bao nhiêu% dân số sẽ còn sống?1F(x)T
  • h(x) : hàm nguy hiểm. Tại một thời điểm , trong số những người vẫn còn sống, điều này có thể được sử dụng để ước tính có bao nhiêu người sẽ chết trong khoảng thời gian tiếp theo, hoặc nếu khoảng-> 0, xác suất tử vong 'tức thời'.T
  • H(x) : nguy cơ tích lũy. Không ý kiến.

Ý tưởng đằng sau việc kết hợp các giá trị nguy hiểm, đặc biệt là khi chúng liên tục là gì? Nếu chúng ta sử dụng một ví dụ riêng biệt với tỷ lệ tử vong trong bốn mùa và chức năng nguy hiểm như sau:

  • Bắt đầu từ mùa xuân, mọi người đều còn sống và 20% sẽ chết
  • Bây giờ vào mùa hè, trong số những người còn lại, 50% sẽ chết
  • Bây giờ vào mùa thu, trong số những người còn lại, 75% sẽ chết
  • Mùa cuối cùng là mùa đông. Trong số những người còn lại, 100% sẽ chết

Vậy thì nguy cơ tích lũy là 20%, 70%, 145%, 245% ?? Điều đó có nghĩa là gì, và tại sao điều này hữu ích?


1
của bạn phải là x , hoặc ngược lại. Tx
Glen_b -Reinstate Monica

5
Về , bạn có một lỗi (mặc dù đó là một nhầm lẫn rất phổ biến). Bạn viết, "khoảng-> 0," xác suất chết "tức thời". Một tuyên bố chính xác sẽ là ' tỷ lệ tử vong tức thời '. Đây không thể là xác suất vì nó là xác suất chia cho d t ; hơn nữa, nó có thể> 1. h(x)dt
gung - Phục hồi Monica

Câu trả lời:


6

Kết hợp tỷ lệ chết khi bạn làm không mang lại cho bạn nguy cơ tích lũy. Tỷ lệ rủi ro trong thời gian liên tục là một xác suất có điều kiện trong một khoảng thời gian rất ngắn, một sự kiện sẽ xảy ra:

h(t)=limΔt0P(t<Tt+Δt|T>t)Δt

Nguy cơ tích lũy là tích hợp tỷ lệ nguy hiểm (tức thời) theo độ tuổi / thời gian. Nó giống như tổng hợp xác suất, nhưng kể từ khi là rất nhỏ, các xác suất này cũng là những con số nhỏ (ví dụ như tỷ lệ rủi ro tử vong có thể đạt khoảng 0.004 ở lứa tuổi khoảng 30). Tỷ lệ rủi ro là có điều kiện khi không trải qua sự kiện này trước t , vì vậy đối với dân số, nó có thể tổng cộng trên 1.Δtt

Bạn có thể tra cứu một số bảng sống tử vong của con người, mặc dù đây là một công thức thời gian riêng biệt và cố gắng tích lũy .mx

Nếu bạn sử dụng R, đây là một ví dụ nhỏ về xấp xỉ các hàm này từ số người chết ở mỗi khoảng tuổi 1 năm:

dx <-  c(3184L, 268L, 145L, 81L, 64L, 81L, 101L, 50L, 72L, 76L, 50L, 
         62L, 65L, 95L, 86L, 120L, 86L, 110L, 144L, 147L, 206L, 244L, 
         175L, 227L, 182L, 227L, 205L, 196L, 202L, 154L, 218L, 279L, 193L, 
         223L, 227L, 300L, 226L, 256L, 259L, 282L, 303L, 373L, 412L, 297L, 
         436L, 402L, 356L, 485L, 495L, 597L, 645L, 535L, 646L, 851L, 689L, 
         823L, 927L, 878L, 1036L, 1070L, 971L, 1225L, 1298L, 1539L, 1544L, 
         1673L, 1700L, 1909L, 2253L, 2388L, 2578L, 2353L, 2824L, 2909L, 
         2994L, 2970L, 2929L, 3401L, 3267L, 3411L, 3532L, 3090L, 3163L, 
         3060L, 2870L, 2650L, 2405L, 2143L, 1872L, 1601L, 1340L, 1095L, 
         872L, 677L, 512L, 376L, 268L, 186L, 125L, 81L, 51L, 31L, 18L, 
         11L, 6L, 3L, 2L)

x <- 0:(length(dx)-1) # age vector

plot((dx/sum(dx))/(1-cumsum(dx/sum(dx))), t="l", xlab="age", ylab="h(t)", 
     main="h(t)", log="y")
plot(cumsum((dx/sum(dx))/(1-cumsum(dx/sum(dx)))), t="l", xlab="age", ylab="H(t)", 
     main="H(t)")

Hi vọng điêu nay co ich.


Có đúng không khi nói rằng h (t) * dt là xác suất của một sự kiện xảy ra trong một khoảng thời gian dài dt quanh t? do đó, giá trị h (t) là xác suất của một sự kiện xảy ra trong vòng 1 đơn vị thời gian xoay quanh t. Điều này sẽ chỉ xảy ra nếu h (t) <= 1
quạ

10

Cuốn sách "Giới thiệu về phân tích sinh tồn bằng cách sử dụng Stata" (Ấn bản 2) của Mario Cleves có một chương hay về chủ đề đó.

Bạn có thể tìm thấy chương trên google sách , p. 13-15. Nhưng tôi sẽ khuyên bạn nên đọc toàn bộ chương 2.

Đây là mẫu ngắn:

  • "Nó đo tổng số rủi ro đã được tích lũy đến thời điểm t" (trang 8)
  • đếm giải thích dữ liệu: "nó cho số lần chúng ta mong đợi (về mặt toán học) để quan sát các thất bại [hoặc các sự kiện khác] trong một khoảng thời gian nhất định, nếu chỉ sự kiện thất bại có thể lặp lại" (trang 13)

5

Tôi muốn Hazard đoán rằng đó là đáng chú ý do việc sử dụng nó trong lô chẩn đoán:

h(x)=eβTzh0(x)βzh0(x)logH(x)=βTz+H0(x)logH^(x)x

h(x)=αθ(xθ)α1θαlogH(x)=αlogxαlogθlogH^(x)logxα^α^logθ^, với điều kiện giả định Weibull là chính xác. Và tất nhiên độ dốc gần 1 cho thấy một mô hình hàm mũ có thể phù hợp.

H(x)x


3

Khi diễn giải những gì @Scortchi đang nói, tôi sẽ nhấn mạnh rằng hàm nguy hiểm tích lũy không có một cách giải thích hay và vì vậy tôi sẽ không cố gắng sử dụng nó như một cách để diễn giải kết quả; nói với một nhà nghiên cứu phi thống kê rằng các mối nguy tích lũy là khác nhau rất có thể sẽ dẫn đến câu trả lời "mm-hm" và sau đó họ sẽ không bao giờ hỏi về chủ đề đó nữa, và không phải là một cách tốt.

Tuy nhiên, chức năng nguy hiểm tích lũy hóa ra lại rất hữu ích về mặt toán học, chẳng hạn như một cách chung để liên kết chức năng nguy hiểm và chức năng sinh tồn. Vì vậy, điều quan trọng là phải biết nguy cơ tích lũy là gì và làm thế nào nó có thể được sử dụng trong các phương pháp thống kê khác nhau. Nhưng nói chung, tôi không nghĩ rằng nó đặc biệt hữu ích khi nghĩ về dữ liệu thực theo các mối nguy tích lũy.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.