So sánh dọc của hai bản phân phối


10

Tôi có kết quả xét nghiệm xét nghiệm máu được quản lý cho 2500 người bốn lần trong khoảng thời gian sáu tháng. Các kết quả chủ yếu bao gồm hai biện pháp đáp ứng miễn dịch - một trong sự hiện diện của một số kháng nguyên bệnh lao, một trong những trường hợp không có. Hiện tại, mỗi xét nghiệm đánh giá dương tính hoặc âm tính dựa trên sự khác biệt giữa phản ứng kháng nguyên và phản ứng không (với ý tưởng là nếu hệ thống miễn dịch của bạn phản ứng với kháng nguyên TB, đôi khi bạn đã tiếp xúc với vi khuẩn ). Về bản chất, xét nghiệm cho rằng các phân phối của nil và các phản ứng lao của một cá nhân không phơi nhiễm về cơ bản phải giống hệt nhau, trong khi một người bị phơi nhiễm lao sẽ có các phản ứng TB được rút ra từ một phân phối khác (có giá trị cao hơn). Hãy cẩn thận: các phản hồi rất, rất không bình thường và các giá trị bị vón cục ở cả sàn tự nhiên và trần bị cắt cụ.

Tuy nhiên, có vẻ khá rõ ràng trong bối cảnh theo chiều dọc này rằng chúng ta đang nhận được "dương tính giả" (không có tiêu chuẩn vàng thực sự cho bệnh lao tiềm ẩn, tôi sợ) gây ra bởi sự dao động (thường là nhỏ) trong các phản ứng kháng nguyên và con số không. Mặc dù điều này có thể khó tránh trong một số trường hợp (bạn chỉ có thể có một cơ hội để kiểm tra ai đó), nhưng có nhiều tình huống mọi người thường xuyên được kiểm tra bệnh lao hàng năm hoặc lâu hơn - ở Mỹ, điều này là phổ biến đối với nhân viên y tế, quân đội, những người vô gia cư ở tại các nhà tạm trú, v.v. Có vẻ xấu hổ khi bỏ qua kết quả kiểm tra trước vì các tiêu chí còn tồn tại là mặt cắt ngang.

Tôi nghĩ rằng những gì tôi muốn làm là những gì tôi nghĩ một cách thô thiển về phân tích hỗn hợp theo chiều dọc. Giống như các tiêu chí cắt ngang, tôi muốn có thể ước tính khả năng các phản ứng TB và nil của một cá nhân được rút ra từ cùng một phân phối - nhưng ước tính đó có kết hợp các kết quả xét nghiệm trước đó, cũng như thông tin từ mẫu như toàn bộ (ví dụ: tôi có thể sử dụng phân phối toàn bộ các mẫu trong phạm vi cá nhân để cải thiện các ước tính của tôi về phân phối nil hoặc TB của một cá nhân cụ thể không?). Tất nhiên, xác suất ước tính sẽ cần để có thể thay đổi theo thời gian, để tính đến khả năng nhiễm trùng mới.

Tôi đã hoàn toàn xoay quanh việc cố gắng nghĩ về điều này theo những cách khác thường, nhưng tôi cảm thấy việc khái niệm hóa này cũng tốt như bất kỳ điều gì tôi sẽ nghĩ ra. Nếu một cái gì đó không có ý nghĩa, xin vui lòng yêu cầu làm rõ. Nếu sự hiểu biết của tôi về tình huống có vẻ sai, xin vui lòng cho tôi biết. Cảm ơn rất nhiều vì sự giúp đỡ của bạn.

Đáp lại Srikant: Đó là trường hợp phân loại tiềm ẩn (có nhiễm lao hay không) sử dụng hai kết quả xét nghiệm liên tục (nhưng không bình thường và bị cắt cụt). Ngay bây giờ, việc phân loại đó được thực hiện bằng cách sử dụng một điểm cắt (ở dạng đơn giản hóa, TB - nil> .35 -> dương). Với các kết quả thử nghiệm được trình bày dưới dạng (nil, TB, result), các nguyên mẫu cơ bản * là:

Âm tính có thể xảy ra: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Có thể dương tính: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobbler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)

Sự tích cực trong bài kiểm tra thứ hai cho Wobbler rõ ràng là một quang sai, nhưng bạn sẽ mô hình hóa điều đó như thế nào? Trong khi một dòng suy nghĩ của tôi là ước tính "sự khác biệt thực sự" giữa TB và con số không tại mỗi thời điểm sử dụng mô hình đa cấp đo lặp lại, thì tôi nhận ra rằng điều tôi thực sự muốn biết là nếu phản ứng của con người và phản ứng của TB được rút ra từ cùng một phân phối, hoặc nếu hệ thống miễn dịch của họ nhận ra các kháng nguyên TB và kích hoạt, tạo ra phản ứng tăng lên.

Đối với những gì có thể gây ra một xét nghiệm dương tính ngoài nhiễm trùng: tôi không chắc chắn. Tôi nghi ngờ đó thường chỉ là sự thay đổi giữa người với người, nhưng chắc chắn có khả năng có các yếu tố khác. Chúng tôi có câu hỏi từ mỗi thời điểm, nhưng tôi chưa nhìn vào chúng quá nhiều.

* Dữ liệu bịa đặt nhưng minh họa


Ồ, và cảm thấy thoải mái khi thử lại - trình duyệt của tôi không hoạt động với đề xuất tự động, vì vậy tôi gặp khó khăn khi xem những gì ở ngoài đó.
Matt Parker

Là biến phụ thuộc của bạn liên tục hoặc rời rạc? Hoặc, có lẽ, kết quả kiểm tra cơ bản là liên tục và nó được chuyển đổi thành một câu trả lời riêng biệt (nghĩa là 'dương', 'âm') tùy thuộc vào một số điểm bị cắt? Bạn cũng có thể làm rõ lý do tại sao một cá nhân sẽ chuyển từ tiêu cực sang tích cực mặc dù không tiếp xúc với bệnh lao? Một ví dụ cụ thể (với một số số được ném vào) của một lần lật như vậy có thể giúp ích.

1
Các ví dụ thực sự hữu ích để trực quan hóa dữ liệu. Một câu hỏi khác liên quan đến sự cảnh báo của bạn: "các giá trị đóng cục ở sàn và trần và dữ liệu không bình thường." Bạn có thể cho tôi biết nếu (a) dữ liệu ở đầu dưới của thang đo trông bình thường và (b) dữ liệu ở đầu trên của thang đo trông bình thường không?

Lưu ý: Tôi dường như đã bỏ lỡ thời hạn để thực sự trao tiền thưởng, vì vậy tôi đang thiết lập một khoản khác để tôi có thể thưởng Srikant đúng cách cho sự giúp đỡ của anh ấy. Nhiều câu trả lời luôn được chào đón, nhưng tiền thưởng là dành cho anh ta.
Matt Parker

Câu trả lời:


2

Đây không phải là một câu trả lời hoàn chỉnh nhưng tôi hy vọng nó cung cấp cho bạn một số ý tưởng về cách mô hình hóa tình huống một cách mạch lạc.

Giả định

  1. Các giá trị ở đầu dưới của thang đo tuân theo phân phối bình thường được cắt từ bên dưới.

  2. Các giá trị ở đầu trên của thang đo tuân theo phân phối chuẩn được cắt từ phía trên.

    (Lưu ý: Tôi biết rằng bạn nói rằng dữ liệu không bình thường nhưng tôi giả sử rằng bạn đang đề cập đến việc phân phối tất cả các giá trị trong khi các giả định ở trên liên quan đến các giá trị ở phía dưới và phía trên của thang đo.)

  3. Trạng thái cơ bản của một người (cho dù họ có mắc lao hay không) tuân theo chuỗi markov bậc nhất.

Mô hình

Để cho:

  1. Di(t)tith

  2. RTBi(t)tith

  3. RNi(t)tith

  4. f(RNi(t)|Di(t)=0)N(μl,σl2)I(RNi(t)>Rl)

  5. f(RNi(t)|Di(t)=1)N(μl,σl2)I(RNi(t)>Rl)

    Điểm 4 và 5 nắm bắt ý tưởng rằng phản ứng của một người đối với xét nghiệm NILL không phụ thuộc vào tình trạng bệnh.

  6. f(RTBi(t)|Di(t)=0)N(μl,σl2)I(RTBi(t)>Rl)

  7. f(RTBi(t)|Di(t)=1)N(μu,σu2)I(RTBi(t)<Ru)

  8. μu>μl

    Điểm 6, 7 và 8 nắm bắt ý tưởng rằng phản ứng của một người đối với xét nghiệm lao phụ thuộc vào tình trạng bệnh.

  9. p(t)t

    [1p(t)p(t)01]

    Nói cách khác,

    Prob(Di(t)=1|Di(t1)=0)=p(t)

    Prob(Di(t)=0|Di(t1)=0)=1p(t)

    Prob(Di(t)=1|Di(t1)=1)=1

    Prob(Di(t)=0|Di(t1)=1)=0

Tiêu chí kiểm tra của bạn nói rằng:

D^i(t)={1,RTBi(t)RNi(t)0.350,otherwise

Tuy nhiên, như bạn thấy từ cấu trúc của mô hình, bạn thực sự có thể tham số hóa các điểm cắt và thay đổi toàn bộ vấn đề thành vấn đề nên cắt bỏ để chẩn đoán chính xác bệnh nhân. Do đó, vấn đề wobbler dường như là một vấn đề với sự lựa chọn cắt giảm của bạn hơn là bất cứ điều gì khác.

p(t)

Hy vọng rằng nó hữu ích.


Cảm ơn, Srikant! Xin lỗi, tôi bằng cách nào đó đã bỏ lỡ bình luận của bạn trước đó. Cụm trên thực sự chỉ là một mũi nhọn ngay trên trần nhà - không có sự biến đổi ở đó ngoại trừ sự đồng đều kéo dài liên kết nó với phân phối thấp hơn, về cơ bản như bạn mô tả. Tôi sẽ mất một chút thời gian để phân tích câu trả lời của bạn (đặc biệt là khi tôi bị mắc kẹt trong IE và không thể thấy LaTeX đúng cách ngay bây giờ), nhưng tôi thực sự đánh giá cao sự cống hiến của bạn cho câu hỏi nhỏ kỳ lạ này.
Matt Parker

3

Tricky Matt, như nhiều vấn đề thống kê trong thế giới thực!

Tôi sẽ bắt đầu xác định mục tiêu / mục tiêu học tập của bạn.

Nếu không biết trạng thái thực sự của các đối tượng, sẽ khó xác định phân phối xác suất cho xét nghiệm TB + và TB-. Bạn có thắc mắc về nhiễm trùng lao trước đó (hoặc tốt hơn, lịch sử y tế). Ngoài ra, tôi vẫn kiểm tra bệnh lao + do chủng ngừa ở thời thơ ấu - vài thập kỷ trước - vì vậy việc chủng ngừa trước đó cần được xem xét.

Dường như với tôi câu hỏi nội tại của bạn là: Xét nghiệm lao lặp đi lặp lại có ảnh hưởng đến kết quả xét nghiệm không?

Sẽ đáng để có một bản sao Phân tích dữ liệu theo chiều dọc của Peter Diggle .

Thực hiện một số phân tích dữ liệu thăm dò, đặc biệt là ma trận biểu đồ phân tán kết quả kiểm tra nil mỗi lần so với nhau và kết quả xét nghiệm lao mỗi lần so với nhau; và các ô phân tán TB vs nil (mỗi lần). Cũng lấy sự khác biệt (kiểm tra TB - kiểm tra Nil) và thực hiện các ma trận biểu đồ phân tán. Hãy thử chuyển đổi dữ liệu và làm lại những dữ liệu này - Tôi tưởng tượng log (TB) - log (Nil) có thể giúp ích nếu kết quả TB rất lớn so với Nil. Tìm kiếm các mối quan hệ tuyến tính trong cấu trúc tương quan.

Một cách tiếp cận khác là lấy kết quả thử nghiệm đã xác định (dương / âm) và mô hình hóa logitudibnally này bằng mô hình hiệu ứng hỗn hợp phi tuyến tính (liên kết logit). Có một số cá nhân lật giữa xét nghiệm TB + sang TB- và điều này có liên quan đến xét nghiệm Nil, xét nghiệm lao, TB - Nil hoặc một số chuyển đổi kết quả xét nghiệm không?


Cảm ơn câu trả lời của bạn. Về việc không biết tình trạng thực sự: chúng tôi có nhiều câu hỏi và nhận thức rõ về vấn đề vắc-xin BCG với xét nghiệm da - thực tế, những xét nghiệm máu này được cho là để giải quyết vấn đề đó vì họ sử dụng một nhóm kháng nguyên khác với PPD bạn đã quen rồi. Tuy nhiên, đó gần như là một câu hỏi riêng biệt, và một câu hỏi chúng ta sẽ làm việc muộn hơn một chút - ngay bây giờ, mối quan tâm của tôi là làm cho bài kiểm tra này 'nhận thức theo chiều dọc'.
Matt Parker

... Đặc biệt là vì một số cá nhân chuyển từ tiêu cực sang tích cực và đó thường là sản phẩm của kết quả lao và lao điển hình của họ tạo ra những dao động nhỏ - không giảm một chút, tăng lên một chút và đột nhiên họ dương tính. Thử nghiệm tiếp theo, họ đã trở lại âm tính. Tôi có thể thấy rằng khi tôi xem xét các kết quả cá nhân, nhưng tôi không chắc làm thế nào để kết hợp một cách thích hợp trực giác của mình vào một mô hình.
Matt Parker

Cuối cùng, trong khi tôi đã thử lấy kết quả nhật ký, điều đó dường như không đủ để có được chúng thậm chí gần với sự bình thường. Họ rất, rất sai lệch, và việc cắt giảm ở cấp cao làm phức tạp thêm điều này bằng cách thêm một đốm mật độ đáng chú ý trên trần nhà. Tuy nhiên, điều thú vị là các phân phối kết quả TB và mẫu rộng của mẫu khá giống nhau, với sự khác biệt duy nhất là các đốm màu trên trần nhà lớn hơn nhiều đối với các kết quả TB.
Matt Parker

Cảm ơn đã dành thời gian để đọc và trả lời con thú này của một câu hỏi!
Matt Parker
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.