Tôi có một câu hỏi tôi muốn đặt ra cho cộng đồng. Gần đây tôi đã được yêu cầu cung cấp phân tích thống kê cho một nghiên cứu tiên lượng đánh dấu khối u . Tôi chủ yếu sử dụng hai tài liệu tham khảo này để hướng dẫn phân tích của mình:
McShane LM và cộng sự. Báo cáo đề xuất cho các nghiên cứu tiên lượng đánh dấu khối u (REMARK). J Natl Ung thư Inst. Ngày 17 tháng 8 năm 2005; 97 (16): 1180-4.
Simon RM và cộng sự. Sử dụng xác nhận chéo để đánh giá độ chính xác dự đoán của các phân loại rủi ro sống sót dựa trên dữ liệu chiều cao. Tóm tắt Bioinform. Tháng 5 năm 2011; 12 (3): 203-14. Epub 2011 ngày 15 tháng 2.
Tôi đã tóm tắt nghiên cứu và phân tích của tôi dưới đây. Tôi sẽ đánh giá cao bất kỳ ý kiến, đề xuất, hoặc phê bình.
Cơ sở học tập:
Một số bệnh nhân bị ung thư X bị tái phát sớm sau khi điều trị. Điểm tiên lượng lâm sàng hiện đang được các bác sĩ sử dụng không làm tốt công việc dự đoán kết quả lâm sàng ở những bệnh nhân này. Do đó, sẽ rất hữu ích khi xác định các dấu hiệu tiên lượng sinh học làm tăng giá trị trên và vượt quá điểm chuẩn này. Mục tiêu của nghiên cứu này là khám phá ra một dấu ấn sinh học như vậy.
Phương pháp nghiên cứu:
Lựa chọn trước các dấu ấn sinh học
Mười hai dấu ấn sinh học liên quan đến ung thư X đã được xác định trong một nghiên cứu trước đây. Chúng tôi đã cố gắng xác nhận mối liên quan giữa 12 ứng cử viên này và ung thư X trong một mẫu bệnh nhân / khối u độc lập, được mô tả dưới đây.
Xác nhận đơn biến của dấu sinh học ứng cử viên được chọn trước
Mức độ của các dấu ấn sinh học này được đo trong một bộ 220 bệnh nhân / khối u.
[Lưu ý: Tôi đã che giấu dữ liệu và cung cấp chúng cho tải xuống công khai dưới dạng tệp * .csv . Tệp có các cột sau: ID ID, một định danh duy nhất cho mỗi bệnh nhân; Đây là điểm số tiên lượng cho mỗi bệnh nhân, với 1 cho thấy tiên lượng tốt và 2 cho thấy tiên lượng xấu; Mm m1 đến đến m12, cấp độ của từng điểm đánh dấu khối u; Thời gian cao điểm, trong tháng; và sự kiện trực tiếp, trong đó 0 chỉ ra rằng việc quan sát bị kiểm duyệt và 1 chỉ ra rằng thất bại điều trị đã xảy ra.]
Các mô hình hồi quy Cox không thể thay đổi theo thời gian đến chết khi biến phụ thuộc được xây dựng cho mỗi trong số 12 dấu ấn sinh học (n = 220 quan sát, số sự kiện = 91).
Risk LCI UCI pValue
1 0.93 0.86 1.02 0.1088
2 0.93 0.88 0.99 0.0215
3 0.99 0.92 1.05 0.6528
4 0.93 0.87 1.00 0.0468
5 0.93 0.88 0.98 0.0055
6 0.97 0.92 1.01 0.1202
7 0.91 0.83 0.99 0.0297
8 0.98 0.90 1.07 0.6972
9 0.99 0.92 1.06 0.7841
10 1.01 0.91 1.11 0.9149
11 0.96 0.87 1.05 0.3837
12 0.90 0.83 0.97 0.0047
Sử dụng giá trị ngưỡng p là 0,05 / 12 = 0,004, không có kết quả nào có ý nghĩa.
Phân tích đa biến
Người ta đã quyết định điều chỉnh mô hình phù hợp với dữ liệu bằng cách nhập tất cả 12 dấu ấn sinh học cùng một lúc vào thuật toán hồi quy Cox từng bước bằng cách sử dụng xác thực chéo mười lần. Sau khi xây dựng mười mô hình trên mười tập huấn luyện khác nhau, các đường cong ROC phụ thuộc vào thời gian đã được xây dựng để cho phép lựa chọn các điểm cắt tối ưu để xác định hai nhóm bệnh nhân, nguy cơ cao và nguy hiểm. Điểm cắt giảm tối thiểu 1 - TP + FP Hướng dẫn đã được chọn. Mười mô hình này sau đó được yêu cầu đưa ra dự đoán về các bệnh nhân tương ứng trong các nhóm xác nhận. Những bệnh nhân này sau đó được phân loại thành các nhóm rủi ro cao và các nhóm có mức độ thấp và được vẽ trên một đường cong Kaplan Meier được xác thực chéo.
Kết luận
Khoảng tin cậy của các đường cong rủi ro cao và thấp chồng chéo đáng kể, cho thấy rằng các dấu ấn sinh học được xác định không phải là dấu hiệu tiên lượng hữu ích. Do đó, nghiên cứu của chúng tôi chưa xác định được mối liên hệ đơn biến hoặc đa biến đáng kể nào giữa các dấu hiệu này và tiên lượng bệnh nhân.
Câu hỏi cho cộng đồng
Tôi đã đi về phân tích dữ liệu của tôi theo cách chính xác?
Nếu bạn là nhà thống kê trong nghiên cứu này, bạn sẽ làm gì khác đi?
Trước khi thực hiện các phân tích xác nhận, kích thước mẫu và tính toán công suất không được thực hiện để xác định số lượng mẫu cần bao gồm và kích thước hiệu ứng có thể phát hiện được. Tôi muốn thực hiện những phân tích này ngay bây giờ để hướng dẫn các nghiên cứu trong tương lai. Ai đó có thể nói cho tôi cách làm cái này không?
Điều tôi thực sự quan tâm là liệu những dấu ấn sinh học này có cung cấp thông tin dự đoán ở trên và vượt quá điểm số tiên lượng lâm sàng hay không. Theo những gì tôi hiểu, điều này sẽ đòi hỏi phải tạo ra ba mô hình khác nhau: (1) một mô hình chỉ có các biến số lâm sàng, (2) một mô hình dấu ấn sinh học với chỉ dấu sinh học và (3) mô hình sinh học / mô hình lâm sàng dựa trên cả hai loại hiệp phương sai. Cho đến nay tôi đã tạo ra các mô hình 1 (không được hiển thị ở trên; nó không thể phân biệt giữa các bệnh nhân có nguy cơ cao và thấp trong mẫu của chúng tôi) và 2 (hiển thị ở trên). Bởi vì 1 và 2 không đáng kể, tôi đã không tạo mô hình 3. Tôi có nên làm điều này theo bất kỳ cách nào không?
Bất kỳ ý kiến bổ sung về mối quan tâm phân tích sẽ được đánh giá rất cao! Xin vui lòng tải xuống dữ liệu đeo mặt nạ và tự mình xem.