Làm thế nào để tóm tắt các khoảng đáng tin cậy cho một đối tượng y tế


21

Với các gói Stan và frontend rstanarmhoặc brmstôi có thể dễ dàng phân tích dữ liệu theo cách Bayes như tôi đã làm trước đây với các mô hình hỗn hợp như lme. Trong khi tôi có hầu hết các cuốn sách và bài báo của Kruschke-Gelman-Wagenmakers -vv trên bàn của tôi, những điều này không cho tôi biết cách tóm tắt kết quả cho khán giả y khoa, bị giằng xé giữa cơn thịnh nộ của Skylla of Bayesian và Charybdis của các nhà phê bình y tế ( "Chúng tôi muốn có ý nghĩa, không phải là thứ khuếch tán").

Một ví dụ: Tần số dạ dày (1 / phút) được đo theo ba nhóm; kiểm soát sức khỏe là tài liệu tham khảo. Có một số phép đo cho mỗi người tham gia, vì vậy tôi thường sử dụng mô hình hỗn hợp sau lme:

summary(lme(freq_min~ group, random = ~1|study_id, data = mo))

Kết quả được chỉnh sửa một chút:

Fixed effects: freq_min ~ group 
                   Value Std.Error DF t-value p-value
(Intercept)        2.712    0.0804 70    33.7  0.0000
groupno_symptoms   0.353    0.1180 27     3.0  0.0058
groupwith_symptoms 0.195    0.1174 27     1.7  0.1086

Để đơn giản, tôi sẽ sử dụng lỗi 2 * std là 95% CI.

Trong bối cảnh thường xuyên, tôi sẽ tóm tắt điều này là:

  • Trong nhóm kiểm soát, tần suất ước tính là 2,7 / phút (có thể thêm CI ở đây, nhưng đôi khi tôi tránh điều này vì sự nhầm lẫn được tạo bởi CI tuyệt đối và khác biệt).
  • Trong nhóm no_sym Triệu, tần số cao hơn 0,4 / phút, CI (0,11 đến 0,59) / phút, p = 0,006 so với kiểm soát.
  • Trong nhóm with_sym Triệu, tần số cao hơn 0,2 / phút, CI (-0,04 đến 0,4) / phút, p = 0,11 so với kiểm soát.

Đây là về độ phức tạp tối đa có thể chấp nhận được đối với một ấn phẩm y tế, người đánh giá có thể sẽ yêu cầu tôi thêm "không đáng kể" trong trường hợp thứ hai.

Đây là tương tự với stan_lmervà linh mục mặc định.

freq_stan = stan_lmer(freq_min~ group + (1|study_id), data = mo)


           contrast lower_CredI frequency upper_CredI
        (Intercept)     2.58322     2.714       2.846
   groupno_symptoms     0.15579     0.346       0.535
 groupwith_symptoms    -0.00382     0.188       0.384

trong đó CredI là khoảng tin cậy 90% (xem họa tiết rctarm tại sao 90% được sử dụng làm mặc định.)

Câu hỏi:

  • Làm thế nào để dịch bản tóm tắt ở trên sang thế giới Bayes?
  • Đến mức độ nào là cần thảo luận trước? Tôi khá chắc chắn rằng bài báo sẽ trở lại với "giả định chủ quan" thông thường khi tôi đề cập đến các linh mục; hoặc ít nhất là với "không thảo luận kỹ thuật, xin vui lòng". Nhưng tất cả các nhà chức trách Bayes yêu cầu giải thích chỉ có giá trị trong bối cảnh của các linh mục.
  • Làm thế nào tôi có thể cung cấp một số "ý nghĩa" thay thế trong công thức, mà không phản bội các khái niệm Bayes? Một cái gì đó như "khác biệt đáng tin cậy" (uuuh ...) hoặc gần như khác biệt đáng tin cậy (buoha ..., nghe giống như "ở tầm quan trọng).

Jonah Gabry và Ben Goodrich (2016). rstanarm: Mô hình hồi quy ứng dụng Bayes thông qua Stan. Gói R phiên bản 2.9.0-3. https://CRAN.R-project.org/package=rstanarm

Nhóm phát triển Stan (2015). Stan: Thư viện C ++ về Xác suất và Lấy mẫu, Phiên bản 2.8.0. URL http://mc-stan.org/ .

Paul-Christian Buerkner (2016). brms: Mô hình hồi quy Bayes sử dụng Stan. Gói R phiên bản 0.8.0. https://CRAN.R-project.org/package=brms

Pinheiro J, Bates D, DebRoy S, Sarkar D và R Core Team (2016). nlme: Mô hình hiệu ứng hỗn hợp tuyến tính và phi tuyến . Gói R phiên bản 3.1-124, http://CRAN.R-project.org/package=nlme>.


1
Tôi không có kinh nghiệm với các nhà phê bình / biên tập viên của các tạp chí y khoa, nhưng có lẽ bạn có thể thử nói rằng không có xác suất nào cho thấy việc chặn là âm tính, xác suất bằng không là hệ số trên biến giả "không có triệu chứng" là âm và xác suất khoảng 5% rằng hệ số trên biến giả "có triệu chứng" là âm. Bạn có thể định lượng chính xác hơn khoảng 5% bằng cách thực hiện mean(as.matrix(freq_stan)[,"groupwith_symptoms"] < 0).
Ben Goodrich

Chúng tôi đã nghĩ về điều đó, và 5% nghe có vẻ Ok; các nhà nghiên cứu sẽ dịch nó thành "ý nghĩa", nhưng vì thông thường họ hiểu sai ý nghĩa, họ sẽ đúng bằng cách phủ định kép. "Không có xác suất", mặt khác, là một kẻ giết người: bạn có chấp nhận điều đó không? Có lẽ <1 / Reff (p <0,001) sẽ là một xấp xỉ? Nhưng một lần nữa: khi tôi viết p <xxx, tôi đang ở trong thế giới quan trọng.
Dieter Menne

Đúng Reff thành n_eff ở trên.
Dieter Menne

1
Cá nhân tôi sẽ không đề cập đến xác suất đuôi là có "ít hơn 1 trong cơ hội n_eff" bởi vì n_eff liên quan đến độ chính xác mà giá trị trung bình được ước tính. Có lẽ bạn có thể chạy chuỗi của mình đủ lâu để có được 1 trận hòa âm cho hệ số trên group_nosymptomsvà sau đó nói xác suất của nó là âm 1 / draws. Nhưng đối với việc đánh chặn, chuỗi sẽ không bao giờ đi vào lãnh thổ tiêu cực đối với những dữ liệu này, vì vậy tôi đoán bạn có thể nói xác suất ít hơn 1 / draws.
Ben Goodrich

Tôi đã nhận được một số lời khuyên tốt về việc bao gồm các giá trị p cho một chuyên gia tên miền nhưng không phải là chuyên gia đánh giá chuyên gia thống kê ở đây: stats.stackexchange.com/questions/148649/ . Chúng tôi đã sử dụng p <tối thiểu (n_eff của tất cả các tham số) làm hướng trên bảo thủ khi p = 0.
stijn

Câu trả lời:


16

Suy nghĩ nhanh:

1) Vấn đề chính là câu hỏi được áp dụng mà bạn đang cố gắng trả lời cho đối tượng của mình, bởi vì điều đó quyết định thông tin bạn muốn từ phân tích thống kê của bạn. Trong trường hợp này, đối với tôi, bạn muốn ước tính mức độ khác biệt giữa các nhóm (hoặc có lẽ là mức độ tỷ lệ của các nhóm nếu đó là thước đo quen thuộc hơn với khán giả của bạn). Mức độ khác biệt không được cung cấp trực tiếp bởi các phân tích bạn đã trình bày trong câu hỏi. Nhưng thật đơn giản để có được những gì bạn muốn từ phân tích Bayes: bạn muốn phân phối sau của sự khác biệt (hoặc tỷ lệ). Sau đó, từ phân phối sau của sự khác biệt (hoặc tỷ lệ), bạn có thể đưa ra tuyên bố xác suất trực tiếp như sau:

"Sự khác biệt đáng tin cậy nhất 95% nằm giữa [giới hạn HDI thấp 95%] và [giới hạn HDI cao 95%]" (ở đây tôi đang sử dụng khoảng mật độ cao nhất 95% [HDI] làm khoảng tin cậy và bởi vì đó là định nghĩa các giá trị tham số mật độ cao nhất mà chúng được đánh dấu là 'đáng tin cậy nhất')

Khán giả trong tạp chí y khoa sẽ hiểu trực giác và chính xác câu nói đó, bởi vì đó là điều khán giả thường nghĩ là ý nghĩa của khoảng tin cậy thường xuyên (mặc dù đó không phải là ý nghĩa của khoảng tin cậy thường xuyên).

Làm thế nào để bạn có được sự khác biệt (hoặc tỷ lệ) từ Stan hoặc JAGS? Chỉ bằng cách xử lý sau của chuỗi MCMC đã hoàn thành. Tại mỗi bước trong chuỗi, tính toán sự khác biệt có liên quan (hoặc tỷ lệ), sau đó kiểm tra phân phối sau của sự khác biệt (hoặc tỷ lệ). Các ví dụ được đưa ra trong DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ cho MCMC nói chung trong Hình 7.9 (trang 177), cho JAGS trong Hình 8.6 (trang 211) và cho Stan trong Phần 16.3 (p 468), v.v.

2) Nếu bạn bị ép buộc theo truyền thống để đưa ra tuyên bố về việc có hay không sự khác biệt về số 0 bị từ chối, bạn có hai lựa chọn Bayes.

2A) Một lựa chọn là đưa ra các tuyên bố xác suất liên quan đến các khoảng gần 0 và mối quan hệ của chúng với HDI. Đối với điều này, bạn thiết lập một vùng tương đương thực tế (ROPE) quanh 0, chỉ đơn thuần là một ngưỡng quyết định phù hợp với miền ứng dụng của bạn --- mức độ chênh lệch nhỏ đến mức nào? Thiết lập các ranh giới như vậy được thực hiện thường xuyên trong thử nghiệm không thua kém lâm sàng, ví dụ. Nếu bạn có số đo 'kích thước hiệu ứng' trong lĩnh vực của mình, có thể có các quy ước cho kích thước hiệu ứng 'nhỏ' và giới hạn ROPE có thể là một nửa của hiệu ứng nhỏ. Sau đó, bạn có thể thực hiện các báo cáo xác suất trực tiếp như sau:

"Chỉ có 1,2% phân phối chênh lệch sau là thực tế tương đương với không"

"Sự khác biệt đáng tin cậy nhất 95% là tất cả không thực sự tương đương với số không (nghĩa là 95% HDI và ROPE không trùng nhau) và do đó chúng tôi từ chối số không." (chú ý phân biệt giữa tuyên bố xác suất từ ​​phân phối sau, so với quyết định tiếp theo dựa trên tuyên bố đó)

Bạn cũng có thể chấp nhận chênh lệch bằng 0, cho các mục đích thực tế, nếu các giá trị đáng tin cậy nhất 95% đều tương đương trên thực tế.

2B) Một lựa chọn Bayes thứ hai là thử nghiệm giả thuyết null Bayesian. (Lưu ý rằng phương pháp trên không phảiđược gọi là "thử nghiệm giả thuyết"!) Thử nghiệm giả thuyết null của Bayes thực hiện so sánh mô hình Bayes của phân phối trước đó cho rằng sự khác biệt chỉ có thể bằng 0 so với phân phối thay thế trước đó cho rằng sự khác biệt có thể là một số khả năng khuếch tán. Kết quả của một so sánh mô hình như vậy (thường) phụ thuộc rất nhiều vào sự lựa chọn cụ thể của phân phối thay thế, và vì vậy cần phải có sự biện minh cẩn thận cho sự lựa chọn thay thế trước đó. Tốt nhất là sử dụng các linh mục ít thông tin nhất cho cả null và thay thế để so sánh mô hình thực sự có ý nghĩa. Lưu ý rằng so sánh mô hình cung cấp thông tin khác với ước tính sự khác biệt giữa các nhóm vì so sánh mô hình đang giải quyết một câu hỏi khác nhau. Do đó, ngay cả với một so sánh mô hình,

Có thể có cách để thực hiện kiểm tra giả thuyết null Bayes từ đầu ra Stan / JAGS / MCMC, nhưng tôi không biết trong trường hợp này. Ví dụ, người ta có thể thử xấp xỉ Savage-Dickey với yếu tố Bayes, nhưng điều đó sẽ dựa vào việc biết mật độ trước về sự khác biệt, sẽ yêu cầu một số phân tích toán học hoặc một số xấp xỉ MCMC bổ sung từ trước.

Hai phương pháp để quyết định về giá trị null được thảo luận trong Ch. 12 trong DBDA2E https://sites.google.com/site/doingbayesiandataanalysis/ . Nhưng tôi thực sự không muốn cuộc thảo luận này được theo dõi bởi một cuộc tranh luận về cách "phù hợp" để đánh giá các giá trị null; Họ chỉ khác nhau và họ cung cấp thông tin khác nhau. Điểm chính của câu trả lời của tôi là điểm 1, ở trên: Nhìn vào sự phân phối sau của sự khác biệt giữa các nhóm.


3
Chào mừng đến với trang web của chúng tôi! Thật tuyệt khi bạn trở thành một phần của cộng đồng chúng tôi!
Tim

Nếu bạn muốn hợp nhất tài khoản của mình với một thống kê này.stackexchange.com/users/16592 (dường như cũng là của bạn), bạn có thể tự động thực hiện thông qua stats.stackexchange.com/contact .
amip nói rằng Phục hồi lại

Bạn có thể làm bài kiểm tra giả thuyết được mô tả ở đây bằng cách sử dụng brms. Xem: github.com/paul-buerkner/brms
bjw

3

Theo nghi thức SO, điều này đáng lẽ phải được viết như một bình luận cho @John K. Kruschke, nhưng những bình luận dài hơn rất khó để cấu trúc. Lấy làm tiếc.

  • @John K. Kruschke viết: Chỉ bằng cách xử lý hậu kỳ của chuỗi MCMC đã hoàn thành ...

lower_CredIupper_CredItrong bài viết gốc đã được tính toán như bạn đã đề cập từ các chuỗi MCMC đầy đủ và chỉ được định dạng lại một chút để so sánh tốt hơn với lmeđầu ra. Trong khi bạn ủng hộ HDI, đây là những lượng tử đơn giản; với hậu thế đối xứng trong ví dụ này, nó không tạo ra sự khác biệt lớn.

  • ROPE và kích thước hiệu ứng

Tôi đã thấy các ứng dụng cho các ủy ban đạo đức là sức mạnh thống kê đã được tính toán mà không nêu rõ giả định về kích thước hiệu ứng. Ngay cả trong trường hợp không có cách nào để xác định "hiệu quả liên quan đến lâm sàng", rất khó để giải thích khái niệm này cho các nhà nghiên cứu y tế. Nó dễ dàng hơn một chút cho các thử nghiệm không thua kém, nhưng đây không phải là chủ đề thường xuyên của một nghiên cứu.

Vì vậy, tôi khá chắc chắn rằng việc giới thiệu ROPES sẽ không được chấp nhận - một giả định khác, mọi người không thể ghi nhớ nhiều hơn một con số. Các yếu tố Bayes có thể hoạt động, bởi vì trước đây chỉ có một số để mang về nhà như giá trị p.

  • Linh mục

Tôi ngạc nhiên khi cả @John K. Kruschke và @Ben Goodrich từ nhóm Stan đều đề cập đến các linh mục; hầu hết các bài viết về chủ đề này yêu cầu thảo luận chi tiết về độ nhạy trước khi trình bày kết quả.

Sẽ thật tuyệt nếu trong phiên bản tiếp theo của cuốn sách của bạn - hy vọng với Stan - bạn có thể thêm các hộp "Cách xuất bản này (trong một bài báo không thống kê) với 100 từ" cho các ví dụ được chọn. Khi tôi lấy chương 23.1 của bạn bằng lời, một bài nghiên cứu y học điển hình sẽ dài 100 trang và số liệu dài ...


* Điểm chính là xem xét sự phân bố sau của sự khác biệt (giữa các nhóm, giữa các kết hợp của các nhóm). Đó là những gì cần xử lý hậu của chuỗi MCMC.
John K. Kruschke

* ROPE: Bạn "khá chắc chắn rằng ROPE sẽ không được chấp nhận" và "thật khó để giải thích khái niệm này cho các nhà nghiên cứu y tế". Tôi không thấy các yếu tố Bayes sẽ dễ giải thích hay chấp nhận như thế nào, vì một yếu tố Bayes thậm chí còn giải thích tỉ mỉ hơn và biện minh cho một số ngưỡng BF cụ thể để quyết định !! Dường như với tôi, bạn đã cho rằng khán giả của bạn vĩnh viễn xuất hiện trong khuôn khổ thường xuyên; nếu đó là trường hợp chỉ cần sử dụng số liệu thống kê thường xuyên hoặc gửi tác phẩm của bạn đến một tạp chí khai sáng hơn.
John K. Kruschke

* Bạn phóng đại quá mức về các khuyến nghị của Ch 23.1, trên thực tế có thể được giải quyết chính xác trong một lượng nhỏ văn bản, đặc biệt là đối với các mô hình đơn giản như bạn sử dụng ở đây. Tiếp tục trong bình luận tiếp theo ...
John K. Kruschke

1
(i) Thúc đẩy việc sử dụng Bayes - nó cung cấp cho bạn các bản phân phối thông tin phong phú. (ii) Giải thích mô hình và các tham số của nó, dễ dàng trong trường hợp này. (iii) Biện minh cho việc trước - một lần nữa tầm thường trong trường hợp này chỉ để nói rằng bạn đã sử dụng các linh mục khuếch tán mà về cơ bản không có tác động đến hậu thế. (Nhưng KHÔNG nếu bạn sử dụng các yếu tố Bayes, mà trước đó là rất quan trọng.) (Iv) Báo cáo độ trơn tru của chuỗi MCMC - tầm thường khi nói ESS là khoảng 10.000 cho tất cả các tham số và sự khác biệt. Tiếp tục trong bình luận tiếp theo ...
John K. Kruschke

1
(v) Giải thích cho hậu thế: Chỉ cần nêu xu hướng trung tâm (ví dụ chế độ) của hậu thế và HDI 95% của nó, cho mỗi khác biệt về lợi ích. Nó không ngắn như một tweet, nhưng nó chỉ là một vài đoạn.
John K. Kruschke
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.