Làm thế nào để kết hợp các kết quả của một số thử nghiệm nhị phân?


8

Trước hết hãy để tôi nói rằng tôi đã có một khóa học thống kê ở trường kỹ thuật 38 năm trước. Vì vậy, tôi đang bay mù ở đây.

Tôi đã có kết quả về cơ bản 18 xét nghiệm chẩn đoán riêng biệt cho một bệnh. Mỗi thử nghiệm là nhị phân - có / không, không có ngưỡng nào có thể được điều chỉnh để "điều chỉnh" thử nghiệm. Đối với mỗi thử nghiệm, tôi có dữ liệu hợp lệ về mặt tích cực / âm tính khi so sánh với "tiêu chuẩn vàng", mang lại độ đặc hiệu và số nhạy cảm (và bất cứ điều gì khác bạn có thể rút ra từ dữ liệu đó).

Tất nhiên, không có xét nghiệm đơn lẻ nào có đủ độ đặc hiệu / độ nhạy được sử dụng một mình và khi bạn "nhãn cầu", kết quả của tất cả các xét nghiệm thường không có xu hướng rõ ràng.

Tôi đang tự hỏi đâu là cách tốt nhất để kết hợp những con số này theo cách sẽ mang lại điểm số cuối cùng (hy vọng) đáng tin cậy hơn bất kỳ bài kiểm tra nào. Cho đến nay tôi đã nghĩ ra kỹ thuật kết hợp các đặc tính của các bài kiểm tra TRUE bằng cách sử dụng

spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N)

và kết hợp độ nhạy của các bài kiểm tra FALSE theo cùng một cách. Tỉ lệ

(1 - sens_combined) / (1 - spec_combined) 

sau đó dường như mang lại một "điểm số cuối cùng" khá tốt, với giá trị trên 10 hoặc hơn là TRUE đáng tin cậy và giá trị dưới 0,1 hoặc hơn là một FALSE đáng tin cậy.

Nhưng sơ đồ này không có bất kỳ sự nghiêm ngặt thực sự nào và đối với một số kết hợp thử nghiệm, nó dường như tạo ra một câu trả lời phản trực giác.

Có cách nào tốt hơn để kết hợp các kết quả thử nghiệm của nhiều xét nghiệm, dựa trên tính đặc hiệu và độ nhạy của chúng không? (Một số xét nghiệm có độ đặc hiệu 85 và độ nhạy là 15, các xét nghiệm khác thì ngược lại.)

OK, đầu tôi đau!

Giả sử tôi đã kiểm tra 1-4 với độ nhạy / độ đặc hiệu (tính theo%):

  1. 65/50
  2. 25/70
  3. 30/60
  4. 85/130

Các xét nghiệm 1 và 2 đều dương tính, 3 và 4 âm tính.

Xác suất giả định rằng 1 là dương tính giả sẽ là (1 - 0,5) và với 2 (1 - 0,7), do đó xác suất cả hai đều dương tính giả sẽ là 0,5 x 0,3 = 0,15.

Xác suất giả định rằng 3 và 4 là âm tính giả sẽ là (1 - 0,3) và (1 - 0,85) hoặc 0,7 x 0,15 = 0,105.

(Chúng ta sẽ bỏ qua hiện tại thực tế là các con số không cộng lại.)

Nhưng xác suất giả định rằng 1 và 2 là dương thực sự là 0,65 và 0,25 = 0,1625, trong khi xác suất giả định rằng 3 và 4 là âm tính thực là 0,6 và 0,35 = 0,21.

Bây giờ chúng ta có thể hỏi hai câu hỏi:

  1. Tại sao không các con số tăng lên (hoặc thậm chí đến gần). (Số giác / thông số kỹ thuật tôi sử dụng là từ "đời thực".)
  2. Làm thế nào tôi nên quyết định giả thuyết nào (rất có thể) đúng (trong ví dụ này có vẻ là "tiêu cực" cho cả hai calcs, nhưng tôi không chắc đó luôn là trường hợp) và tôi có thể sử dụng cái gì cho "công đức "Để quyết định xem kết quả có" đáng kể "không?

Thêm thông tin

Đây là một nỗ lực để tinh chỉnh và mở rộng một sơ đồ "trọng số" hiện có hoàn toàn "nghệ thuật" trong tự nhiên (nghĩa là chỉ cần rút ra khỏi ** của ai đó). Lược đồ hiện tại về cơ bản nằm trên dòng "Nếu bất kỳ hai trong số ba đầu tiên là dương, và nếu hai trong bốn tiếp theo và một trong hai tiếp theo, thì giả sử là dương". (Tất nhiên, đó là một ví dụ đơn giản hóa.) Các số liệu thống kê có sẵn không hỗ trợ sơ đồ trọng số đó - ngay cả với thuật toán trọng số thô dựa trên các số liệu thống kê tôi đưa ra với các câu trả lời khác nhau đáng kể. Nhưng, vắng mặt một cách nghiêm ngặt để đánh giá các số liệu thống kê tôi không có uy tín.

Ngoài ra, lược đồ hiện tại chỉ quyết định tích cực / tiêu cực và tôi cần tạo ra một trường hợp "mơ hồ" (có giá trị thống kê) ở giữa, vì vậy cần có một số bằng khen.

Muộn nhất

Tôi đã thực hiện một thuật toán suy luận Bayes "thuần túy" ít nhiều, và sau khi đi vòng quanh một số vấn đề phụ, nó dường như hoạt động khá tốt. Thay vì làm việc từ các đặc tính và độ nhạy, tôi lấy các công thức đầu vào trực tiếp từ các số dương / sai dương thực sự. Thật không may, điều này có nghĩa là tôi không thể sử dụng một số dữ liệu chất lượng tốt hơn không được trình bày theo cách cho phép các số này được trích xuất, nhưng thuật toán sạch hơn nhiều, cho phép sửa đổi các đầu vào với tính toán tay ít hơn nhiều, và nó có vẻ khá ổn định và kết quả phù hợp với "trực giác" khá tốt.

Tôi cũng đã đưa ra một "thuật toán" (theo nghĩa lập trình thuần túy) để xử lý các tương tác giữa các quan sát phụ thuộc lẫn nhau. Về cơ bản, thay vì tìm kiếm một công thức quét, thay vào đó tôi giữ cho mỗi lần quan sát một hệ số nhân xác suất cận biên được sửa đổi khi các quan sát trước đó được xử lý, dựa trên một bảng đơn giản - "Nếu quan sát A là đúng thì hãy sửa đổi xác suất cận biên của B bằng a hệ số 1,2 ", vd. Không thanh lịch, bằng mọi cách, nhưng có thể phục vụ được, và nó dường như ổn định một cách hợp lý trên một loạt các đầu vào.

(Tôi sẽ thưởng tiền thưởng cho những gì tôi cho là bài viết hữu ích nhất trong vài giờ, vì vậy nếu bất cứ ai muốn nhận được một vài lượt thích, hãy xem nó.)


Xác suất xét nghiệm 1 là dương tính giả không phải là 1 - .5, đó là 1 - (.5 * Xác suất không mắc bệnh)
fgregg

Điểm tốt. Điều đó có thể giúp tôi có ý nghĩa hơn một chút về mọi thứ.
Daniel R Hicks

Xin lỗi, thực sự, tôi đã sai. Độ đặc hiệu = Pr (Âm tính thật) / [Pr (Âm tính thật) + Pr (Sai ​​tích cực)] vì vậy Pr (Sai ​​tích cực) = Pr (Âm tính thật) / Độ đặc hiệu - Pr (Âm tính thật) bằng với Pr (Sai ​​tích cực) = Pr (Không có bệnh) (1 - độ đặc hiệu)
fgregg

1
Chỉ cần làm rõ: khi bạn nói rằng bạn đang tìm kiếm sự nghiêm ngặt, bạn không có nghĩa là "nghiêm ngặt thống kê", nghĩa là bạn không nhất thiết cần kiểm tra kết hợp để cung cấp cho bạn xác suất chính xác của lỗi loại 1 và 2, phải không? Bạn chỉ đang tìm kiếm thứ gì đó không được kéo ra khỏi không khí mỏng?
SheldonCooper

1
Làm thế nào để bạn biết rằng các bài kiểm tra phụ thuộc lẫn nhau mạnh mẽ? Đây có phải là kiến ​​thức cấp cao của bạn không (ví dụ cả hai xét nghiệm đều sử dụng huyết áp, vì vậy có lẽ là tương quan), hoặc bạn có số liệu thống kê cho thấy chúng có tương quan không? Nếu sau này, bạn có thể sử dụng một sửa đổi nhỏ cho đề xuất của fgregg: mô hình tất cả các thử nghiệm là độc lập, ngoại trừ các cặp phụ thuộc lẫn nhau, mà bạn nên mô hình thành các cặp. Điều này sẽ yêu cầu một số thống kê bổ sung (có dạng ), mà bạn có lẽ có vì bạn biết chúng có tương quan với nhau. p(T1,T2|Disease)
SheldonCooper

Câu trả lời:


1

"Tôi đang tự hỏi đâu là cách tốt nhất để kết hợp những con số này theo cách sẽ mang lại điểm số cuối cùng (hy vọng) đáng tin cậy hơn bất kỳ bài kiểm tra nào." Một cách rất phổ biến là tính toán alpha của Cronbach và, nói chung, để thực hiện cái mà một số người gọi là phân tích độ tin cậy "tiêu chuẩn". Điều này sẽ cho thấy mức độ của một điểm số nhất định tương quan với giá trị trung bình của 17 điểm số khác; điểm số của bài kiểm tra có thể được giảm tốt nhất từ ​​thang điểm; và độ tin cậy nhất quán nội bộ là gì với cả 18 và với một tập hợp con nhất định. Bây giờ, một số ý kiến ​​của bạn dường như chỉ ra rằng nhiều người trong số 18 người này không được quan tâm; nếu đó là sự thật, bạn có thể kết thúc với một thang đo chỉ bao gồm một vài bài kiểm tra.

EDIT SAU COMMENT: Một cách tiếp cận khác dựa trên ý tưởng rằng có sự đánh đổi giữa tính nhất quán và hiệu lực nội bộ. Các thử nghiệm của bạn càng ít tương quan thì độ bao phủ nội dung của chúng càng tốt, giúp tăng cường tính hợp lệ của nội dung (nếu không phải là độ tin cậy). Vì vậy, suy nghĩ theo các dòng này, bạn sẽ bỏ qua alpha của Cronbach và các chỉ số liên quan về tương quan tổng số vật phẩm và thay vào đó sử dụng lý luận tiên nghiệm để kết hợp 18 bài kiểm tra thành một thang đo. Hy vọng rằng quy mô như vậy sẽ tương quan cao với tiêu chuẩn vàng của bạn.


Vì nhiều lý do (về cơ bản là thiên vị y khoa bảo thủ) tôi không có lựa chọn loại bỏ bất kỳ xét nghiệm nào, tôi cũng không đặc biệt muốn. Hãy nghĩ về nó có thể tương tự như điểm tín dụng, trong đó có một khoản nợ thẻ tín dụng lớn là "không đáng lo ngại" với việc có một công việc được trả lương thấp, có khả năng bị sa thải, nhưng cả hai cùng tạo ra một tình huống nghiêm trọng hơn nhiều hơn là cá nhân
Daniel R Hicks

1

Để đơn giản hóa một chút, hãy giả sử rằng bạn chỉ có hai xét nghiệm chẩn đoán. Bạn muốn tính toán

Pr(DiseaseT1,T2)=Pr(T1,T2Disease)Pr(Disease)Pr(T1,T2)

Bạn đề nghị rằng kết quả của các xét nghiệm này là độc lập, có điều kiện đối với người mắc bệnh. Nếu vậy thì

Pr(T1,T2Disease)=Pr(T1Disease)Pr(T2Disease)

Trong đó là độ nhạy của Kiểm tra .Pr(TiDisease)i

Pr(T1,T2) là xác suất vô điều kiện của một người ngẫu nhiên kiểm tra dương tính trên cả hai thử nghiệm:

Pr(T1,T2)=Pr(T1,T2Disease)Pr(Disease)+Pr(T1,T2No Disease)Pr(No Disease)

Ở đâu

Pr(T1,T2No Disease)=Pr(T1No Disease)Pr(T2No Disease)

và là cho Thử nghiệm .Pr(TiNo Disease)1specificityi


Tôi không chắc chắn điều này hoạt động trong trường hợp của tôi (nếu tôi hiểu "hồi quy logistic" một nửa chính xác). Trước hết, như được mô tả, không có ngưỡng (hoặc ít nhất là tương đối ít) hoặc các yếu tố điều chỉnh tôi có thể điều chỉnh cho từng thử nghiệm riêng lẻ - chỉ là kết quả dương tính / âm tính. Thứ hai, tôi không có khả năng có được dữ liệu mới để "đào tạo" mô hình - chỉ cần đưa ra dữ liệu tôi có giống như nhổ răng.
Daniel R Hicks

Bạn có thể mô tả dữ liệu của bạn hơn một chút. Tôi nghĩ rằng bạn biết sự thật cơ bản của các trường hợp có bệnh hay không?
fgregg

1
Khó khăn bạn gặp phải với những con số không khớp với thông tin dư thừa. Ví dụ, giả sử một trong các xét nghiệm là "huyết áp tâm thu (SBP)> 140" và xét nghiệm còn lại là "huyết áp tâm trương (DBP)> 90". Vâng, cả hai đều tương quan và thông tin vốn có trong mỗi không phải là duy nhất. Kết hợp chúng một cách hợp lý, giả sử "SBP> 140 hoặc DBP> 90" sẽ mang lại sự cải thiện về độ nhạy. Nhưng không có bộ dữ liệu đo đồng thời tiêu chuẩn vàng, SBP và DBP, không có cách nào chính xác để định lượng độ nhạy và độ đặc hiệu của thử nghiệm kết hợp.
Ming K

1
@Daniel: Có vẻ như bạn sẽ không cần bất kỳ dữ liệu mới nào (ngoài những gì bạn đã có) cho phương pháp này. Có vẻ như bạn sẽ cần tỷ lệ dương / âm đúng / sai và bạn không cần bất kỳ ngưỡng nào.
SheldonCooper

1
@Daniel: đây là phản hồi bình luận của bạn từ ngày 14 tháng 7. Những gì fgregg đã mô tả về cơ bản là một cách tiếp cận Naive Bayes. Có vẻ như bạn có đủ thông tin để sử dụng phương pháp này. Tất cả bạn cần là tỷ lệ, mà bạn có. Bạn không cần bất kỳ thông tin mới nào và bạn không cần bất kỳ ngưỡng nào trong các bài kiểm tra. Có vẻ như bạn đã tìm ra điều này rồi, vì bạn nói rằng bạn đã thử nó. Bạn đúng rằng bất kỳ sự phụ thuộc sẽ làm sai lệch kết quả.
SheldonCooper
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.