Làm thế nào để so sánh tỷ lệ sống trung bình giữa các nhóm?


12

Tôi đang tìm kiếm sự sống sót trung bình bằng cách sử dụng Kaplan-Meier ở các tiểu bang khác nhau cho một loại ung thư. Có sự khác biệt khá lớn giữa các tiểu bang. Làm thế nào tôi có thể so sánh tỷ lệ sống trung bình giữa tất cả các quốc gia và xác định những quốc gia nào khác biệt đáng kể so với tỷ lệ sống trung bình trên toàn quốc?


Bạn có thể vui lòng cho một số chỉ dẫn về kích thước mẫu, khung thời gian, tỷ lệ sống sót, v.v. để chúng tôi hiểu rõ hơn về thiết kế nghiên cứu của bạn không?
chl

có các giá trị bị kiểm duyệt trong dữ liệu - ngoài các giá trị lớn nhất không?
ronaf

Thực sự có các giá trị được kiểm duyệt trong dữ liệu và tổng dân số xấp xỉ 1500, thời gian sống trung bình là 18 tháng (khoảng 300-600 ngày) ... khung thời gian là giai đoạn 2000-2007.
Misha

Câu trả lời:


6

Một điều cần lưu ý với đường cong sinh tồn Kaplan-Meier là về cơ bản nó là mô tả và không suy diễn . Nó chỉ là một chức năng của dữ liệu, với một mô hình cực kỳ linh hoạt nằm đằng sau nó. Đây là một điểm mạnh bởi vì điều này có nghĩa là hầu như không có giả định nào có thể bị phá vỡ, mà là một điểm yếu bởi vì rất khó để khái quát hóa nó, và nó phù hợp với "tiếng ồn" cũng như "tín hiệu". Nếu bạn muốn đưa ra một suy luận, thì về cơ bản bạn phải giới thiệu một cái gì đó chưa biết mà bạn muốn biết.

Bây giờ một cách để so sánh thời gian sống sót trung bình là đưa ra các giả định sau:

  1. Tôi có một ước tính về thời gian tồn tại trung bình cho mỗi trạng thái , được đưa ra bởi đường cong meap kaplan. itiTôi
  2. Tôi hy vọng thời gian tồn tại trung bình thực sự, sẽ bằng với ước tính này. E ( T i | t i ) = t iTTôiE(TTôi|tTôi)= =tTôi
  3. Tôi chắc chắn 100% rằng thời gian sống sót trung bình thực sự là tích cực. Pr(TTôi>0)= =1

Bây giờ cách "bảo thủ nhất" để sử dụng các giả định này là nguyên tắc entropy tối đa, vì vậy bạn nhận được:

p(TTôi|tTôi)= =Kexp(-λTTôi)

Trong đó và được chọn sao cho PDF được chuẩn hóa và giá trị mong đợi là . Bây giờ chúng tôi có:λ t iKλtTôi

= K [ - e x p ( - λ T i )

1= =0p(TTôi|tTôi)dTTôi= =K0exp(-λTTôi)dTTôi
E ( T i ) = 1
= =K[exp(λTi)λ]Ti=0Ti==KλK=λ
và bây giờ chúng ta cóE(Ti)=1λλ=ti1

Và do đó, bạn có một bộ phân phối xác suất cho mỗi trạng thái.

p(Ti|ti)=1tiexp(Titi)(i=1,,N)

Cung cấp phân phối xác suất chung của:

p(T1,T2,,TN|t1,t2,,tN)=i=1N1tiexp(Titi)

Bây giờ có vẻ như bạn muốn kiểm tra giả thuyết , trong đó là thời gian sống sót trung bình trung bình. Giả thuyết thay thế nghiêm trọng để kiểm tra lại là giả thuyết "mỗi trạng thái là một bông tuyết độc đáo và đẹp" bởi vì đây là sự thay thế rất có thể, và do đó đại diện cho thông tin bị mất khi chuyển sang giả thuyết đơn giản hơn (một thử nghiệm "minimax"). Thước đo của bằng chứng chống lại giả thuyết đơn giản hơn được đưa ra bởi tỷ lệ chênh lệch:¯ t = 1H0:T1=T2==TN=t¯HMột:T1=t1,...,TN=tNt¯=1Ni=1NtiHA:T1=t1,,TN=tN

= [ Π N i = 1 1

O(HA|H0)=p(T1=t1,T2=t2,,TN=tN|t1,t2,,tN)p(T1=t¯,T2=t¯,,TN=t¯|t1,t2,,tN)
=[i=1N1ti]exp(i=1Ntiti)[i=1N1ti]exp(i=1Nt¯ti)=exp(N[t¯tharm1])

Ở đâu

tharm=[1Ni=1Nti1]1t¯

là trung bình điều hòa. Lưu ý rằng tỷ lệ cược sẽ luôn ưu tiên sự phù hợp hoàn hảo, nhưng không nhiều nếu thời gian sống sót trung bình gần hợp lý. Hơn nữa, điều này cung cấp cho bạn một cách trực tiếp để nêu bằng chứng của thử nghiệm giả thuyết cụ thể này:

các giả định 1-3 đưa ra tỷ lệ cược tối đa là so với thời gian tồn tại trung bình bằng nhau trên tất cả các trạng tháiO(HA|H0):1

Kết hợp điều này với quy tắc quyết định, chức năng mất, chức năng tiện ích, v.v ... cho biết mức độ thuận lợi của việc chấp nhận giả thuyết đơn giản hơn và bạn đã có kết luận của mình!

Không có giới hạn về số lượng giả thuyết bạn có thể kiểm tra và đưa ra tỷ lệ cược tương tự cho. Chỉ cần thay đổi để chỉ định một bộ "giá trị thực" khác có thể. Bạn có thể thực hiện "kiểm tra ý nghĩa" bằng cách chọn giả thuyết là:H0

HS,i:Ti=ti,Tj=T=t¯(i)=1N1jitj

Vì vậy, giả thuyết này là bằng lời nói "trạng thái có tỷ lệ sống trung bình khác nhau, nhưng tất cả các trạng thái khác đều giống nhau". Và sau đó làm lại phép tính tỷ lệ cược tôi đã làm ở trên. Mặc dù bạn nên cẩn thận về giả thuyết thay thế là gì. Đối với bất kỳ một trong những điều dưới đây là "hợp lý" theo nghĩa chúng có thể là những câu hỏi mà bạn quan tâm để trả lời (và chúng thường sẽ có câu trả lời khác nhau)i

  • của tôi được xác định ở trên - tệ hơn bao nhiêu so với mức phù hợp hoàn hảo?HAHS,i
  • của tôi được xác định ở trên - tốt hơn bao nhiêu so với mức phù hợp trung bình?H0HS,i
  • a - trạng thái "khác nhau" hơn bao nhiêu so với trạng thái ?HS,kki

Bây giờ một điều đã được xem xét quá mức ở đây là mối tương quan giữa các trạng thái - cấu trúc này giả định rằng việc biết tỷ lệ sống trung bình ở một trạng thái không cho bạn biết gì về tỷ lệ sống trung bình ở trạng thái khác. Mặc dù điều này có vẻ "xấu" nhưng không khó để cải thiện và các tính toán trên là kết quả ban đầu tốt, dễ tính toán.

Thêm kết nối giữa các trạng thái sẽ thay đổi các mô hình xác suất và bạn sẽ thấy một số "thời gian" tồn tại trung bình một cách hiệu quả. Một cách để kết hợp các mối tương quan vào phân tích là tách thời gian tồn tại thực sự thành hai thành phần, "phần chung" hoặc "xu hướng" và "phần riêng lẻ":

Ti=T+Ui

Và sau đó hạn chế phần cá nhân để có zero trung bình trên tất cả các đơn vị và phương sai chưa biết được tích hợp bằng cách sử dụng một mô tả kiến thức gì trước khi bạn có các sự thay đổi cá nhân, trước khi quan sát các dữ liệu (hoặc Jeffreys trước nếu bạn không biết gì, và nửa tỉnh táo nếu jeffreys gây ra vấn đề).Uiσ


(+1) Rất thú vị. Bài viết của bạn cũng khiến tôi chèn một bình luận trong câu trả lời của tôi.
GaBorgulya

Có lẽ tôi đã bỏ lỡ nó, nhưng được định nghĩa ở đâu? M1
Đức hồng y

@cardinal, lời xin lỗi của tôi - đó là một lỗi đánh máy. sẽ bị xóa
xác suất

không cần xin lỗi Chỉ không chắc là tôi đã bỏ qua nó trong khi đọc hay chỉ đơn giản là thiếu một cái gì đó rõ ràng.
Đức hồng y

4

Tôi nghĩ rằng tôi chỉ cần thêm vào chủ đề này rằng bạn có thể quan tâm đến hồi quy lượng tử với kiểm duyệt. Bottai & Zhang 2010 đã đề xuất một "Hồi quy Laplace" có thể thực hiện nhiệm vụ này, bạn có thể tìm thấy một bản PDF ở đây . Có một gói cho Stata cho việc này, nó chưa được dịch sang R mặc dù gói quantreg trong R có chức năng hồi quy lượng tử bị kiểm duyệt, crq , có thể là một tùy chọn.

Tôi nghĩ rằng cách tiếp cận này rất thú vị và có thể trực quan hơn nhiều đối với các bệnh nhân gây nguy hiểm cho tỷ lệ. Chẳng hạn, biết rằng 50% cho thuốc tồn tại hơn 2 tháng so với những người không dùng thuốc và các tác dụng phụ buộc bạn phải ở lại 1-2 tháng tại bệnh viện có thể giúp việc lựa chọn điều trị dễ dàng hơn nhiều.


Tôi không biết "Hồi quy Laplace", nhưng về đoạn 2 của bạn, tôi tự hỏi liệu tôi có hiểu đúng không. Thông thường trong phân tích sinh tồn (suy nghĩ về thời gian thất bại tăng tốc), chúng tôi sẽ nói một cái gì đó như 'phần trăm thứ 50 cho nhóm ma túy đến muộn hơn 2 tháng so với 50% cho nhóm kiểm soát'. Đó có phải là những gì bạn muốn nói, hoặc đầu ra của LR có đủ khả năng giải thích khác nhau không?
gung - Phục hồi Monica

@gung: Tôi nghĩ bạn đúng trong cách giải thích của bạn - đã thay đổi văn bản, tốt hơn? Tôi đã không sử dụng các mô hình hồi quy cho mình mặc dù tôi đã gặp chúng gần đây trong một khóa học. Tt là một thay thế thú vị cho các mô hình Cox thông thường mà tôi đã sử dụng rất nhiều. Mặc dù tôi có lẽ cần dành nhiều thời gian hơn để tiêu hóa ý tưởng nhưng tôi cảm thấy rằng có lẽ tôi dễ dàng giải thích hơn cho bệnh nhân của mình vì tôi thường xuyên sử dụng đường cong KM khi giải thích cho bệnh nhân của mình. Nhân sự đòi hỏi bạn phải thực sự hiểu sự khác biệt giữa rủi ro tương đối và rủi ro tuyệt đối - một khái niệm có thể mất một chút thời gian để giải thích ...
Max Gordon


Cảm ơn bạn @Misha cho liên kết. Tác giả đã có câu trả lời tại đây: onlinel Library.wiley.com/doi/10.1002/bimj.201100103/abab
Max Gordon

3

Đầu tiên tôi sẽ hình dung dữ liệu: tính toán khoảng tin cậy và sai số chuẩn cho những người sống sót trung bình ở mỗi tiểu bang và hiển thị các TCTD trên lô rừng, trung vị và SE của họ bằng cách sử dụng biểu đồ phễu.

Tỷ lệ sống trung bình trung bình trên toàn quốc trên toàn quốc là một đại lượng được ước tính từ dữ liệu và do đó không chắc chắn nên bạn không thể coi đó là giá trị tham chiếu sắc nét trong quá trình kiểm tra ý nghĩa. Một khó khăn khác với cách tiếp cận trung bình là khi bạn so sánh trung vị trạng thái với nó, bạn đang so sánh trung vị với một đại lượng đã bao gồm đại lượng đó như một thành phần. Vì vậy, dễ dàng hơn để so sánh từng trạng thái với tất cả các trạng thái khác cộng lại. Điều này có thể được thực hiện bằng cách thực hiện kiểm tra thứ hạng nhật ký (hoặc các lựa chọn thay thế) cho từng trạng thái.
(Chỉnh sửa sau khi đọc câu trả lời của xác suất: kiểm tra thứ hạng nhật ký không so sánh tỷ lệ sống trong hai (hoặc nhiều) nhóm, nhưng nó không hoàn toàn là trung vị mà nó đang so sánh. Nếu bạn chắc chắn đó là trung vị mà bạn muốn so sánh, bạn cũng có thể dựa vào phương trình của anh ấy hoặc sử dụng mô hình lại ở đây)

Bạn đã gắn nhãn câu hỏi của mình [nhiều so sánh], vì vậy tôi giả sử bạn cũng muốn điều chỉnh (tăng) giá trị p của mình theo cách nếu bạn thấy ít nhất một giá trị p được điều chỉnh nhỏ hơn 5%, bạn có thể kết luận rằng tỷ lệ sống trung bình giữa các trạng thái là không bằng điểm số ở mức ý nghĩa 5%. Bạn có thể sử dụng các phương pháp chung và bảo thủ quá mức như Bonferroni, nhưng sơ đồ hiệu chỉnh tối ưu sẽ xem xét các mối tương quan của các giá trị p. Tôi giả sử rằng bạn không muốn xây dựng bất kỳ kiến ​​thức tiên nghiệm nào vào sơ đồ chỉnh sửa, vì vậy tôi sẽ thảo luận về sơ đồ trong đó điều chỉnh nhân với mỗi giá trị p với cùng một hằng số C.

Vì tôi không biết làm thế nào để lấy được công thức để có được hệ số nhân C tối ưu, tôi sẽ sử dụng phương pháp lấy mẫu lại . Theo giả thuyết khống rằng các đặc điểm sinh tồn là giống nhau trên tất cả các trạng thái, vì vậy bạn có thể hoán vị nhãn trạng thái của các trường hợp ung thư và tính toán lại trung bình. Sau khi thu được nhiều vectơ được ghép lại của các giá trị p trạng thái, tôi sẽ tìm số nhân C dưới đây với ít hơn 95% các vectơ không bao gồm các giá trị p đáng kể và trên 95%. Trong khi phạm vi có vẻ rộng, tôi sẽ liên tục tăng số lượng hình ảnh theo một độ lớn.


Lời khuyên tốt về trực quan hóa dữ liệu. (+1)
xác suất

@probabilityislogic Cảm ơn! Tôi cũng hoan nghênh những lời chỉ trích, đặc biệt nếu mang tính xây dựng.
GaBorgulya

lời chỉ trích duy nhất tôi có là việc sử dụng giá trị p, nhưng đây là "con chip trên vai tôi" hơn bất cứ điều gì trong câu trả lời của bạn - có vẻ như nếu bạn sẽ sử dụng giá trị p, thì những gì bạn đề xuất là tốt. Tôi chỉ không nghĩ sử dụng giá trị p là tốt. xem ở đây để trao đổi của tôi với @eduardo trong các nhận xét về giá trị p.
xác suất
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.