Dự đoán tình trạng y tế tiếp theo từ các điều kiện trong quá khứ trong dữ liệu khiếu nại


12

Tôi hiện đang làm việc với một bộ lớn dữ liệu yêu cầu bảo hiểm y tế bao gồm một số yêu cầu về phòng thí nghiệm và dược phẩm. Tuy nhiên, thông tin phù hợp nhất trong bộ dữ liệu được tạo thành từ chẩn đoán (ICD-9CM) và mã thủ tục (CPT, HCSPCS, ICD-9CM).

Mục tiêu của tôi là:

  1. Xác định các điều kiện tiền thân có ảnh hưởng nhất (bệnh đi kèm) cho một tình trạng y tế như bệnh thận mãn tính;
  2. Xác định khả năng (hoặc xác suất) rằng bệnh nhân sẽ phát triển một tình trạng y tế dựa trên các điều kiện họ đã có trong quá khứ;
  3. Làm tương tự như 1 và 2, nhưng với các thủ tục và / hoặc chẩn đoán.
  4. Tốt hơn là, kết quả sẽ được bác sĩ giải thích

Tôi đã xem xét những thứ như các bài báo về Giải thưởng Sức khỏe Di sản và đã học được rất nhiều từ chúng, nhưng chúng tập trung vào việc dự đoán nhập viện.

Vì vậy, đây là câu hỏi của tôi: Bạn nghĩ phương pháp nào hiệu quả cho các vấn đề như thế này? Và, tài nguyên nào sẽ hữu ích nhất cho việc tìm hiểu về các ứng dụng và phương pháp khoa học dữ liệu liên quan đến chăm sóc sức khỏe và y học lâm sàng?

EDIT # 2 để thêm bảng văn bản gốc:

CKD là tình trạng mục tiêu, "bệnh thận mãn tính", ".any" biểu thị rằng họ đã mắc phải tình trạng đó bất cứ lúc nào, ".vd Before.ckd" có nghĩa là họ có tình trạng đó trước khi chẩn đoán CKD đầu tiên. Các chữ viết tắt khác tương ứng với các điều kiện khác được xác định bởi các nhóm mã ICD-9CM. Nhóm này xảy ra trong SQL trong quá trình nhập. Mỗi biến, ngoại trừ BN_age, là nhị phân.


1
Bạn có thể cung cấp một số dữ liệu mẫu (bằng tiếng Anh, không có mã) không?

Tôi đã thêm một số dữ liệu ví dụ vào bài viết gốc của tôi. Trong phiên bản này, mỗi điều kiện được biểu thị bằng mã ba chữ cái.
Jamie

1
R là mát mẻ, nhưng không phải là rất dễ đọc của con người. Bạn có thể vui lòng định dạng lại mẫu dữ liệu của mình dưới dạng bảng (ví dụ: sử dụng định dạng CSV hoặc TSV; 5-6 cột là ok)? Ngoài ra, một số giải thích về các biến số (những gì "lo lắng.any", "flu.vd Before.ckd", v.v ... thực sự có nghĩa và những gì được dự đoán) sẽ giúp ích rất nhiều.

1
Bạn có thể cung cấp thêm thông tin về các tham số được sử dụng trong tập dữ liệu để chúng tôi có thể hiểu nếu có bất kỳ mối tương quan nào không. Một số từ viết tắt được đề cập bởi bạn không rõ ràng với tôi. Sẽ thật tuyệt nếu bạn có thể chia sẻ id email của mình để chúng tôi cộng tác ngoại tuyến. Cảm ơn!
JohnGalt

1
Điều này chỉ liên quan một chút, nhưng thách thức khoa học dữ liệu gần đây nhất của chúng tôi liên quan đến việc dự đoán các khiếu nại từ các yêu cầu khác. cloudera.com/content/cloudera/en/training/certification/ccp-ds/ mẹo Khi giải pháp được phát hành, nó có thể chứa một vài ý tưởng thú vị.
Sean Owen

Câu trả lời:


7

Tôi chưa bao giờ làm việc với dữ liệu y tế, nhưng từ lý luận chung, tôi nói rằng mối quan hệ giữa các biến trong chăm sóc sức khỏe là khá phức tạp. Các mô hình khác nhau, chẳng hạn như rừng ngẫu nhiên, hồi quy, vv chỉ có thể nắm bắt một phần của các mối quan hệ và bỏ qua những người khác. Trong trường hợp như vậy, nó có ý nghĩa để sử dụng thăm dòmô hình thống kê chung .

Ví dụ, điều đầu tiên tôi sẽ làm là tìm ra mối tương quan giữa các điều kiện tiền thân và chẩn đoán. Ví dụ, trong bao nhiêu phần trăm các trường hợp bệnh thận mãn tính có trước cúm dài? Nếu nó cao, nó không phải lúc nào cũng có nghĩa là nhân quả , nhưng cung cấp thực phẩm khá tốt cho suy nghĩ và giúp hiểu rõ hơn về mối quan hệ giữa các điều kiện khác nhau.

Một bước quan trọng khác là trực quan hóa dữ liệu. Có phải CKD xảy ra ở nam nhiều hơn ở nữ? Nơi cư trú của họ thì sao? Phân phối các trường hợp CKD theo tuổi là gì? Thật khó để nắm bắt tập dữ liệu lớn dưới dạng một tập hợp số, vẽ chúng ra giúp việc này dễ dàng hơn nhiều.

Khi bạn có ý tưởng về những gì đang diễn ra, hãy thực hiện kiểm tra giả thuyết để kiểm tra giả định của bạn. Nếu bạn từ chối giả thuyết khống (giả định cơ bản) để ủng hộ phương án thay thế, xin chúc mừng, bạn đã thực hiện "điều gì đó thực sự".

Cuối cùng, khi bạn đã hiểu rõ về dữ liệu của mình, hãy thử tạo mô hình hoàn chỉnh . Nó có thể là một cái gì đó chung chung như PGM (ví dụ mạng Bayesian được chế tạo thủ công) hoặc một cái gì đó cụ thể hơn như hồi quy tuyến tính hoặc SVM , hoặc bất cứ thứ gì. Nhưng bằng mọi cách bạn sẽ biết mô hình này tương ứng với dữ liệu của bạn như thế nào và làm thế nào bạn có thể đo lường hiệu quả của nó.


Là một nguồn khởi đầu tốt cho việc học phương pháp thống kê, tôi muốn giới thiệu khóa học Giới thiệu về Thống kê của Sebastian Thrun. Mặc dù nó khá cơ bản và không bao gồm các chủ đề nâng cao, nó mô tả hầu hết các khái niệm quan trọng và cung cấp sự hiểu biết có hệ thống về lý thuyết và thống kê xác suất.


Cảm ơn vì điều đó! Nó xác nhận một số bước tôi đã thực hiện (phân tích thăm dò, kiểm tra giả thuyết, v.v.).
Jamie

7

Trong khi tôi không phải là nhà khoa học dữ liệu, tôi là nhà dịch tễ học làm việc trong môi trường lâm sàng. Câu hỏi nghiên cứu của bạn không chỉ định khoảng thời gian (nghĩa là tỷ lệ phát triển CKD trong 1 năm, 10 năm, trọn đời?).

Nói chung, tôi sẽ trải qua một số bước trước khi nghĩ về mô hình hóa (phân tích đơn biến, phân tích hai biến, kiểm tra colinearity, v.v.). Tuy nhiên, phương pháp được sử dụng phổ biến nhất để cố gắng dự đoán một sự kiện nhị phân (sử dụng biến nhị phân OR liên tục) là hồi quy logistic. Nếu bạn muốn xem CKD như một giá trị phòng thí nghiệm (albumin nước tiểu, eGFR), bạn sẽ sử dụng hồi quy tuyến tính (kết quả liên tục).

Mặc dù các phương pháp được sử dụng nên được thông báo bằng dữ liệu và câu hỏi của bạn, các bác sĩ lâm sàng thường thấy tỷ lệ chênh lệch và tỷ lệ rủi ro vì đây là những biện pháp liên kết được báo cáo phổ biến nhất trên các tạp chí y khoa như NEJM và JAMA.

Nếu bạn đang giải quyết vấn đề này từ góc độ sức khỏe con người (trái ngược với Business Intelligence) thì Mô hình dự đoán lâm sàng của Steyerberg là một tài nguyên tuyệt vời.


1
Cảm ơn những lời đề nghị hữu ích. Tôi chắc chắn sẽ kiểm tra cuốn sách đó! Mặc dù tôi có quyền truy cập vào các giá trị trong phòng thí nghiệm, dữ liệu không đáng tin cậy và lẻ tẻ, vì vậy tôi đang cố gắng bám vào dữ liệu mà tôi có thể nhận được từ các khiếu nại. Các chữ viết tắt biến thực sự là nhóm phần mềm phân loại lâm sàng AHRQ của các mã chẩn đoán.
Jamie

3

"Xác định các điều kiện tiền thân có ảnh hưởng nhất (bệnh đi kèm) cho một tình trạng y tế như bệnh thận mãn tính"

Tôi không chắc chắn rằng có thể ID các điều kiện có ảnh hưởng nhất; Tôi nghĩ nó sẽ phụ thuộc vào mô hình bạn đang sử dụng. Mới hôm qua tôi phù hợp với một khu rừng ngẫu nhiên và một cây hồi quy được tăng cường cho cùng một dữ liệu, và thứ tự và tầm quan trọng tương đối mà mỗi mô hình đưa ra cho các biến là khá khác nhau.


Cảm ơn, Andy. Bạn có thể xây dựng một chút? Có phải vì các biến không nắm bắt đủ chi tiết?
Jamie

Tôi không có ý kiến. Tôi đoán nó phụ thuộc vào cách các mô hình khác nhau làm việc.
JenSCDC

Bạn có thể đề xuất một số giải pháp bạn đã thử hoặc xem xét?
Jamie

Cho đến nay tôi cũng chưa làm được, nên không có ai giúp đỡ. Lấy làm tiếc.
JenSCDC

Bây giờ tôi đang đi nghỉ trong vài tuần tới, nhưng khi tôi quay trở lại tôi sẽ xem xét nó bởi vì nó thực sự đã khơi gợi sự quan tâm của tôi.
JenSCDC
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.