Tại sao sự thiên vị bị ảnh hưởng khi một thử nghiệm lâm sàng bị chấm dứt ở giai đoạn đầu?


24

Một phân tích tạm thời là một phân tích dữ liệu tại một hoặc nhiều thời điểm trước khi đóng cửa chính thức của nghiên cứu với mục đích, ví dụ, có thể chấm dứt nghiên cứu sớm.

Theo Piantadosi, S. ( Thử nghiệm lâm sàng - quan điểm phương pháp luận ): " Ước tính hiệu quả điều trị sẽ bị sai lệch khi thử nghiệm kết thúc ở giai đoạn đầu. Quyết định càng sớm, độ lệch càng lớn. "

Bạn có thể giải thích cho tôi yêu cầu này. Tôi có thể dễ dàng hiểu rằng độ chính xác sẽ bị ảnh hưởng, nhưng yêu cầu về sự thiên vị không rõ ràng đối với tôi ...


Tôi nghĩ rằng đây là một câu hỏi hoàn hảo để "giải quyết" sự khác biệt giữa phương pháp luận của Bayes và Người theo chủ nghĩa thường xuyên
xác suất

Câu trả lời:


13

Trước hết, bạn phải lưu ý bối cảnh: điều này chỉ áp dụng khi thử nghiệm bị dừng sớm do giám sát tạm thời cho thấy hiệu quả / vô ích, không phải vì một số lý do bên ngoài ngẫu nhiên. Trong trường hợp đó, ước tính kích thước hiệu ứng sẽ bị sai lệch theo nghĩa thống kê hoàn toàn. Nếu bạn dừng lại vì hiệu quả, hiệu quả ước tính sẽ quá cao (giả sử nó là tích cực), nếu bạn dừng lại vì vô ích, nó sẽ quá thấp.

Piantodosi cũng đưa ra một lời giải thích trực quan (Sec 10.5.4 trong phiên bản của tôi). Giả sử sự khác biệt thực sự trong hai phương tiện là 1 đơn vị. Khi bạn thực hiện nhiều thử nghiệm và xem xét chúng tại thời điểm phân tích tạm thời của bạn, một số trong số chúng sẽ quan sát thấy kích thước hiệu ứng cao hơn 1, một số dưới một và hầu hết khoảng 1 - phân bố sẽ rộng, nhưng đối xứng. Kích thước hiệu ứng ước tính tại thời điểm này sẽ không chính xác lắm, nhưng sẽ không thiên vị. Tuy nhiên, bạn chỉ dừng lại và báo cáo kích thước hiệu ứng nếu sự khác biệt là đáng kể (được điều chỉnh cho nhiều thử nghiệm), đó là ước tính nằm ở phía cao. Trong tất cả các trường hợp khác, bạn tiếp tục và không báo cáo ước tính. Điều đó có nghĩa là có điều kiện dừng lại sớm, phân bố kích thước hiệu ứng không đối xứng và giá trị mong đợi của nó cao hơn giá trị thực của ước tính.

Thực tế là hiệu ứng này sớm nghiêm trọng hơn xuất phát từ rào cản lớn hơn cho việc dừng thử nghiệm, do đó một phần lớn hơn của phân phối bị vứt bỏ trong quá trình điều hòa.


1
Lúc đầu tôi cũng nghĩ vậy, nhưng khi tôi ngồi xuống để chứng minh điều đó, tôi không thể: tôi chỉ có thể chỉ ra rằng ước tính kết quả thực sự là không thiên vị. (Trực giác mới: xu hướng tích cực từ điểm dừng có điều kiện cân bằng xu hướng tiêu cực từ việc mang thí nghiệm đến khi hoàn thành.) Vì vậy: bạn có thể trình bày một minh chứng chặt chẽ hơn không?
whuber

@whuber tôi sẽ cố gắng viết nó lên, nhưng vấn đề là tuyên bố Piantodosi là chỉ về những gì xảy ra khi bạn làm dừng sớm. Không có sự hoàn thành để cân bằng nó.
Aniko

2
@whuber Vâng, đó là những gì tuyên bố ban đầu là tốt. Quan điểm của bạn rằng sẽ có một điều kiện thiên vị ngược lại khi hoàn thành nghiên cứu cũng có giá trị. Toàn bộ thông điệp nên là một khi bạn bắt đầu thực hiện giám sát tạm thời, những điều thú vị bắt đầu xảy ra với khả năng ước tính kích thước hiệu ứng của bạn.
Aniko

3
@Aniko Nên điều chỉnh độ lệch khi chấm dứt sớm. Do đó, dường như chúng ta đang thảo luận về việc sử dụng một công cụ ước tính tiêu chuẩn, dành cho các mẫu ngẫu nhiên có kích thước cố định, trong các thí nghiệm kết thúc có điều kiện, trong đó các công cụ ước tính đó không có các thuộc tính mong muốn. (+1, nhân tiện.)
whuber

2
@whuber Chắc chắn, bạn có thể điều chỉnh cho sự thiên vị này, nhưng trước tiên bạn phải nhận ra rằng nó tồn tại. Và sau đó bạn phải bán cho điều tra viên rằng mặc dù rõ ràng 5 trong số 10 bệnh nhân đã trả lời, tỷ lệ phản hồi ước tính là 40% (số được tạo thành) sau khi điều chỉnh sai lệch do dừng sớm.
Aniko

3

Dưới đây là một minh họa về cách thức thiên vị có thể phát sinh trong kết luận, và tại sao nó có thể không phải là câu chuyện đầy đủ. Giả sử bạn có một thử nghiệm liên tiếp về một loại thuốc dự kiến ​​sẽ có tác dụng dương tính (+1) nhưng có thể có tác dụng tiêu cực (-1). Năm con chuột lang được thử nghiệm lần lượt. Xác suất không xác định về kết quả dương tính trong một trường hợp là trên thực tế và kết quả tiêu cực134 .14

Vì vậy, sau năm thử nghiệm, xác suất của các kết quả khác nhau là

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    405/1024
+3-2 = +1    270/1024
+2-3 = -1     90/1024
+1-4 = -3     15/1024
+0-5 = -5      1/1024

vì vậy xác suất của một kết quả tích cực tổng thể là 918/1024 = 0,896 và kết quả trung bình là +2,5. Chia cho 5 thử nghiệm, đây là kết quả trung bình + 0,5 cho mỗi thử nghiệm.

Đây là con số không thiên vị, vì nó cũng là .+1×341×14

Giả sử rằng để bảo vệ chuột lang, nghiên cứu sẽ bị chấm dứt nếu ở bất kỳ giai đoạn nào kết quả tích lũy là âm tính. Sau đó, xác suất trở thành

 Outcome     Probability
+5-0 = +5    243/1024
+4-1 = +3    324/1024
+3-2 = +1    135/1024
+2-3 = -1     18/1024
+1-2 = -1     48/1024
+0-1 = -1    256/1024

vì vậy xác suất của một kết quả tích cực tổng thể là 702/1024 = 0,6855 và kết quả trung bình là +1,953. Nếu chúng tôi xem giá trị trung bình của kết quả trên mỗi thử nghiệm trong phép tính trước đó, tức là sử dụng ,+3+55 ,+1+35 ,-1+15 ,-115-113 sau đó chúng tôi sẽ nhận được +0.184.11

Đây là những giác quan trong đó có sự thiên vị bằng cách dừng lại sớm trong sơ đồ thứ hai, và sự thiên vị là theo hướng dự đoán. Nhưng nó không phải là câu chuyện đầy đủ.

Tại sao whuber và xác suất nghĩ rằng dừng lại sớm nên tạo ra kết quả không thiên vị? Chúng tôi biết kết quả dự kiến ​​của các thử nghiệm trong sơ đồ thứ hai là +1.953. Số lượng thử nghiệm dự kiến ​​hóa ra là 3.906. Vì vậy, chia từng cái một, chúng ta nhận được +0,5, chính xác như trước và những gì được mô tả là không thiên vị.


P(+)=14P()=34

P(H|S,I)P(H|I)D

1

Chà, kiến ​​thức của tôi về điều này xuất phát từ nguồn gốc Harveian năm 2008 http://bookshop.rcplondon.ac.uk/details.aspx?e=262 Về cơ bản, theo hồi ức tốt nhất của tôi, kết quả sẽ bị sai lệch là 1) dừng lại sớm thường có nghĩa là phương pháp điều trị có hiệu quả nhiều hơn hoặc ít hơn so với hy vọng và nếu điều này là tích cực, thì bạn có thể tận dụng cơ hội. Tôi tin rằng giá trị p được tính toán dựa trên kích thước mẫu được lên kế hoạch (nhưng tôi có thể sai về điều này) và nếu bạn liên tục kiểm tra kết quả của mình để xem có bất kỳ hiệu ứng nào được hiển thị hay không, bạn cần sửa cho nhiều so sánh để đảm bảo rằng bạn không chỉ đơn thuần là tìm thấy một hiệu ứng cơ hội. Ví dụ: nếu bạn kiểm tra 20 lần cho các giá trị p dưới 0,05 thì nói theo thống kê, bạn gần như chắc chắn sẽ tìm thấy một kết quả quan trọng.


PHẦN 1 Trước hết, cảm ơn câu trả lời của bạn. Thật vậy, phương pháp thường xuyên chính xác cho nhiều thử nghiệm. Do đó, vấn đề ước tính hiệu quả điều trị sai lệch không thể đến từ đó. Khi phân tích tạm thời, thử nghiệm dựa trên thông tin hiện tại, sử dụng cỡ mẫu hiện tại, không phải kích thước mẫu được lên kế hoạch tổng thể. Vì vậy, vấn đề cũng không đến từ đó.
ocram

PHẦN 2 Tôi đồng ý rằng dừng lại sớm có thể có nghĩa là việc điều trị "hiệu quả hơn một lần nhảy". Theo nghĩa đó, hiệu quả điều trị ước tính sẽ lớn hơn mong đợi. Nhưng theo tôi, điều này không làm cho nó bị thiên vị ... Thay vào đó, theo tôi, theo một cách nào đó, "hy vọng của chúng tôi đã bị thiên vị".
ocram

1

Tôi sẽ không đồng ý với tuyên bố đó, trừ khi "thiên vị" Piantadosi có nghĩa là một phần của độ chính xác thường được gọi là thiên vị. Suy luận sẽ không bị "thiên vị" bởi vì bạn đã chọn dừng lại: nó sẽ bị "sai lệch" vì bạn có ít dữ liệu hơn. Cái gọi là "nguyên tắc khả năng" nói rằng suy luận chỉ nên phụ thuộc vào dữ liệu được quan sát, chứ không phụ thuộc vào dữ liệu có thể được quan sát, nhưng không. LP nói

P(H|D,S,I)=P(H|D,I)

HDSIDIS=g(D,I)AA=AS=g(D,I)DID,S,I=D,g(D,I),I=D,IDI nó quan trọng


@probabilityislogic: Cảm ơn bạn! Nếu tôi hiểu rõ về nó, "thiên vị" không nên được hiểu theo nghĩa thống kê. Tôi nghĩ điều này có ý nghĩa bởi vì Piantadosi nói về "sự thiên vị" của một ước tính chứ không phải của một người ước tính ...
ocram

E(μμ^)2=var(μ^)+Bias(μ^)μμ^là "công cụ ước tính". Nếu thuật ngữ thứ hai (độ lệch) phụ thuộc vào kích thước mẫu, thì bạn sẽ mong đợi rằng việc dừng sớm sẽ làm tăng độ lệch, vì nó đã giảm kích thước mẫu, liên quan đến việc tiếp tục thử nghiệm. Nhưng từ những gì bạn nói, có vẻ như "thiên vị" nên được hiểu là "lỗi" theo quan điểm của Piantadosi.
xác suất

1
Lập luận này không nói gì về sự thiên vị, chỉ có khía cạnh kiểm tra giả thuyết của vấn đề, điều mà không ai thắc mắc.
Aniko

@Prob Tôi phải đồng ý với @Aniko: rõ ràng là khi null là đúng, có xác suất dương là chấm dứt sớm, trong trường hợp đó, ước tính về hiệu ứng sẽ là khác không. Do đó, kỳ vọng về hiệu quả ước tính, có điều kiện về chấm dứt sớm, là tích cực, trong khi kỳ vọng vô điều kiện là bằng không. (Lưu ý rằng OP đang giải quyết ước tính , không phải kiểm tra giả thuyết.)
whuber

Hμ(a,a+da)SDISSSDIμ
xác suất

0

sẽ được thiên vị (trong "ý nghĩa thống kê") nếu chấm dứt nghiên cứu không phải là ngẫu nhiên.

Trong một tập hợp các thí nghiệm chạy đến kết luận, kết quả "sớm" của (a) một số thí nghiệm cuối cùng tìm thấy "không có hiệu lực" sẽ cho thấy một số hiệu quả (là kết quả của sự tình cờ) và (b) một số thí nghiệm cuối cùng tìm thấy hiệu ứng sẽ hiển thị "không có hiệu lực" (có thể là kết quả của việc thiếu sức mạnh). Trong một thế giới mà bạn chấm dứt thử nghiệm, nếu bạn dừng (a) thường xuyên hơn (b), bạn sẽ kết thúc các hoạt động nghiên cứu với xu hướng thiên vị trong việc tìm kiếm hiệu quả. (Logic tương tự áp dụng cho kích thước hiệu ứng ; kết thúc các nghiên cứu cho thấy hiệu ứng "lớn hơn mong đợi" sớm hơn so với các nghiên cứu cho thấy "như mong đợi hoặc thấp hơn" sẽ làm tăng số lượng phát hiện về "hiệu ứng lớn".)

Nếu trên thực tế các thử nghiệm y tế bị chấm dứt khi kết quả sớm cho thấy hiệu quả tích cực - để giúp điều trị có sẵn cho các đối tượng trong giả dược hoặc những người khác - nhưng không phải khi kết quả sớm không kết luận, thì sẽ có nhiều lỗi loại 1 trong thử nghiệm như vậy hơn sẽ có nếu tất cả các thí nghiệm được chạy đến kết luận. Nhưng điều đó không có nghĩa là thực tiễn là sai; chi phí của lỗi loại 1, nói về mặt đạo đức, có thể thấp hơn so với việc từ chối điều trị nhanh như cách khác đối với các phương pháp điều trị thực sự sẽ được chứng minh là có hiệu quả khi kết thúc thử nghiệm đầy đủ.


Xin vui lòng xem nhận xét của tôi để trả lời của Aniko, bởi vì tôi sẽ hỏi cùng một câu hỏi của bạn: bạn có thể cung cấp một minh chứng chặt chẽ hơn không?
whuber

Tôi nói với Aniko - anh ấy làm việc tốt hơn tôi có thể. Nhưng nếu bạn đồng ý rằng "hiệu ứng ngăn kéo bàn" dẫn đến sai lệch, logic ở đây là giống hệt nhau. Có sự thiên vị ủng hộ dữ liệu ủng hộ giả thuyết - trong trường hợp trước b / c dữ liệu không hỗ trợ không được báo cáo, trong phần sau b / c, một số phần dữ liệu không được hỗ trợ nhất thiết không được thu thập: Kết thúc thử nghiệm sớm khi kết quả có vẻ tốt sẽ loại trừ một phần của phân phối "kết quả xấu" được đưa ra bởi các thử nghiệm sẽ tạo ra kết quả xấu muộn . Có thể sự thiên vị này có thể được điều chỉnh cho - nhưng có sự thiên vị cần điều chỉnh.
dmk38

@dmk Tôi chỉ đang cố gắng thúc đẩy cả hai bạn tranh luận với @Probability, người mà bạn dường như rất không đồng ý ;-).
whuber

1
P(D|H,S,I)

1
@probability Đó là một cách để xem xét nó. Một cách khác là né tránh giả thuyết hoàn toàn và giải quyết câu hỏi thực sự đang được hỏi; dí dỏm, kích thước của hiệu quả điều trị là gì? Từ quan điểm này, việc chấm dứt có thể xảy ra một khi ước tính được biết với độ chính xác đủ để hỗ trợ cho việc ra quyết định. Ví dụ, chúng tôi có thể muốn có sự tin tưởng cao rằng lợi ích về sức khỏe từ việc kê đơn điều trị có thể vượt quá chi phí (và tác dụng phụ) của việc điều trị.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.