Khi chúng ta so sánh các nhóm về các biến kiểm soát, chúng ta có nên sử dụng các thử nghiệm tương đương không?

Trong nhiều bài báo xem xét các phương pháp điều trị và kết quả, tôi thấy các bảng (thường là "bảng 1") về các biến có thể được gọi là biến phiền toái (thường là nhân khẩu học, đôi khi là điều kiện y tế) với các xét nghiệm về ý nghĩa và văn bản như "các nhóm tương tự nhau, ở đó không có sự khác biệt đáng kể nào trên XXXXX, xem Bảng ". Vì vậy, mục tiêu rõ ràng là chỉ ra rằng các nhóm được chỉ định cho các phương pháp điều trị khác nhau là tương tự nhau.

Tuy nhiên, điều này đối với tôi có vẻ như là "chấp nhận null" và rằng những gì chúng ta nên làm (hoặc yêu cầu được thực hiện) là các thử nghiệm tương đương.

Điều này có thể áp dụng cho các thử nghiệm ngẫu nhiên hoặc cho các nghiên cứu quan sát. Am i thiếu cái gì ở đây?

equivalence controlling-for-a-variable

— Peter Flom - Tái lập Monica
nguồn

Tôi tập hợp bạn đang đề cập đến 'bảng 1'. Bạn đang hỏi về RCT mỗi se, hoặc nghiên cứu quan sát?

— gung - Phục hồi Monica

@gung có, thường là Bảng 1. Nó có thể là nghiên cứu quan sát hoặc RCT. Tôi chỉnh sửa câu hỏi của tôi để phản ánh bình luận của bạn.

— Peter Flom - Tái lập Monica

Ngay cả khi tôi có nguy cơ nêu rõ điều này: Có một số bài viết đề cập đến vấn đề này (ví dụ de Boer và cộng sự (2015) ). Tôi nghĩ rằng các điều khoản là thử nghiệm giả thuyết nên được bỏ trong các bảng cơ sở. Các Tuyên bố CONSORT cho thử nghiệm lâm sàng cũng như Tuyên bố STROBE cho các nghiên cứu quan sát khuyên bạn nên tránh giả thuyết thử nghiệm trong các bảng cơ sở. Nếu các bài kiểm tra tương đương tốt hơn, tôi không biết.

— COOLSerdash

Việc bạn kiểm tra chống lại null hay kiểm tra tính tương đương tùy thuộc vào động lực và ảnh hưởng đến cuộc thảo luận có thể được rút ra từ bảng. Khẳng định tính tương đương là một điều kiện rất mạnh và tôi nghi ngờ không cần thiết cho hầu hết các trường hợp trừ khi tác giả muốn đưa ra kết luận mạnh mẽ về nhân khẩu học, v.v. Sẽ tốt hơn và phù hợp hơn khi có một quy trình chính thức để định lượng rủi ro sai lệch về sự mất cân bằng nhân khẩu học. Tôi đã không xem xét điều đó nhưng sẽ quan tâm đến ý kiến của người khác về những gì có thể trông như thế nào.

— ReneBt

Đây là một vấn đề phức tạp giới thiệu nhiều vấn đề liên quan về: 1) chỉ định rõ ràng một giả thuyết, 2) hiểu cơ chế nhân quả nào (có thể) tạo ra hiệu ứng giả thuyết và 3) lựa chọn / phong cách trình bày.

Bạn nói đúng đó, nếu chúng ta áp dụng thực hành thống kê âm thanh, để khẳng định rằng "nhóm là tương tự", người ta sẽ phải thực hiện một cuộc thử nghiệm tương đương. Tuy nhiên, các thử nghiệm tương đương chịu các vấn đề tương tự như đối tác NHST của họ: sức mạnh chỉ là sự phản ánh kích thước mẫu và số lượng so sánh: chúng tôi mong đợi sự khác biệt, nhưng mức độ và ảnh hưởng của chúng đối với phân tích chính là quan trọng hơn nhiều.

Khi phải đối mặt với những tình huống này, các so sánh cơ bản hầu như luôn luôn là những kẻ thừa kế. Phương pháp tốt hơn (của khoa học và thống kê) có thể được áp dụng. Tôi có một vài khái niệm / câu trả lời chứng khoán mà tôi xem xét khi trả lời các câu hỏi như thế này.

Cột "tổng" quan trọng hơn cột chia tách điều trị; một cuộc thảo luận được bảo đảm về những giá trị đó.

Trong các thử nghiệm lâm sàng, mẫu an toàn thường được phân tích. Đây là tập hợp con của những người lần đầu tiên được tiếp cận, sau đó đồng ý, sau đó chọn ngẫu nhiên và cuối cùng tiếp xúc với ít nhất một lần kiểm soát hoặc điều trị. Trong quá trình đó, chúng tôi phải đối mặt với mức độ sai lệch tham gia khác nhau.

Có lẽ khía cạnh quan trọng nhất và bị bỏ qua của các nghiên cứu này là trình bày kết quả Bảng 1 trong tổng hợp . Điều này đạt được mục đích quan trọng nhất của Bảng 1: chứng minh cho các nhà điều tra khác biết mức độ khái quát của mẫu nghiên cứu đối với dân số rộng hơn trong đó các kết quả được áp dụng.

Tôi thấy thật đáng ngạc nhiên khi các nhà điều tra, độc giả và nhà phê bình cố định về các xu hướng tiếp tuyến trong các đặc điểm của bệnh nhân khi hoàn toàn không quan tâm đến các tiêu chí bao gồm / loại trừ và tính tổng quát của mẫu.

Tôi xấu hổ khi nói rằng tôi là một nhà phân tích trong một thử nghiệm mà coi đây là một vấn đề. Chúng tôi đã tuyển dụng bệnh nhân và sau đó, do vấn đề hậu cần, chúng tôi đã đợi gần một năm trước khi thực hiện can thiệp. Biểu đồ phối hợp không chỉ cho thấy sự sụt giảm lớn giữa các giai đoạn đó, mà mẫu còn thay đổi. Kết quả là phần lớn không có / thiếu việc làm, già và khỏe mạnh hơn những người chúng ta dự định tiếp cận. Tôi đã có những lo ngại sâu sắc về tính khái quát của nghiên cứu, nhưng rất khó để vận động cho những mối quan tâm đó được biết đến.

Lỗi công suất và loại I của các thử nghiệm để phát hiện sự mất cân bằng trong các đặc điểm cơ bản phụ thuộc vào số lượng đặc điểm thực tế

Điểm của việc trình bày một danh sách chi tiết các biến số cơ bản như đã đề cập trước đây là đưa ra một ảnh chụp nhanh về mẫu; lịch sử bệnh nhân, phòng thí nghiệm, thuốc men và nhân khẩu học của họ. Đây là tất cả các khía cạnh mà các bác sĩ lâm sàng sử dụng để đề nghị điều trị cho bệnh nhân. Họ đều tin rằng sẽ dự đoán kết quả. Nhưng số lượng các yếu tố như vậy là đáng kinh ngạc. Có thể so sánh 30 biến khác nhau. Rủi ro thô của lỗi loại I là 1- (1-0,05) ^ 30 = 0,79. Bonferroni hoặc hiệu chỉnh hoán vị được khuyến khích nếu thử nghiệm phải được thực hiện.

Kiểm tra thống kê ở dạng tinh khiết nhất của nó có nghĩa là vô tư, và nó được cho là được quy định trước. Tuy nhiên, sự lựa chọn và trình bày các đặc điểm cơ bản thường là tương đối. Tôi cảm nhận được sự tiếp cận thứ hai là thích hợp: nếu chúng ta thấy, như trong thử nghiệm của tôi, có những đặc điểm thú vị mà mô tả mẫu một cách hiệu quả, chúng ta nên có sự tự do để lựa chọn để trình bày những giá trị đặc biệt . Thử nghiệm có thể được thực hiện nếu nó có giá trị, nhưng hãy cẩn thận thông thường: chúng không phải là giả thuyết đáng quan tâm, có nguy cơ nhầm lẫn cao về kết quả quan trọng và không quan trọng, và kết quả phản ánh nhiều hơn cỡ mẫu và cân nhắc trình bày hơn bất kỳ sự thật nào.

Rerandomization có thể được thực hiện, nhưng chỉ trước khi bệnh nhân được tiếp xúc với điều trị

Như tôi đã đề cập, mẫu được phân tích thường là mẫu an toàn. Tuy nhiên, rerandomization là một cách tiếp cận mạnh mẽ và phù hợp về mặt lý thuyết cho những bệnh nhân chưa được tiếp xúc với nghiên cứu điều trị. Điều này chỉ áp dụng cho các cài đặt trong đó đăng ký hàng loạt được thực hiện. Tại đây, 100 người tham gia được tuyển dụng và chọn ngẫu nhiên. Ví dụ, nếu xác suất chỉ định một tỷ lệ cao người cao tuổi cho một nhóm, thì mẫu có thể được phân nhóm lại để cân bằng tuổi. Điều này không thể được thực hiện với tuyển sinh tuần tự hoặc so le, đó là bối cảnh trong đó hầu hết các thử nghiệm được thực hiện. Điều này là do thời gian ghi danh có xu hướng dự đoán tình trạng bệnh nhân theo trường hợp phổ biến "sai lệch" (sự cố khó hiểu và tiêu chí đủ điều kiện phổ biến).

Thiết kế cân bằng không phải là một yêu cầu cho suy luận hợp lệ

Giả định ngẫu nhiên nói rằng, về mặt lý thuyết, tất cả những người tham gia sẽ có trung bình các phân phối đồng biến bằng nhau. Tuy nhiên, như đã đề cập trước đó, khi so sánh 30 cấp trở lên, xác suất mất cân bằng tích lũy là không đáng kể. Trong thực tế, sự mất cân bằng của hiệp phương sai có thể không liên quan khi xem xét toàn bộ.

Nếu ngẫu nhiên là công bằng, chúng ta có thể thấy tuổi được tăng lên trong nhóm điều trị, nhưng hút thuốc được nâng lên trong nhóm kiểm soát: cả hai đều đóng góp riêng lẻ vào nguy cơ kết quả. Điều cần thiết cho suy luận hiệu quả và hợp lệ là điểm số xu hướng được cân bằng giữa các nhóm. Đây là một điều kiện yếu hơn nhiều. Thật không may, xu hướng không thể được kiểm tra để cân bằng mà không có mô hình rủi ro. Tuy nhiên, thật dễ dàng để thấy rằng xu hướng như vậy phụ thuộc vào sự kết hợp của các hiệp phương sai và khả năng mất cân bằng về xu hướng trong một mẫu ngẫu nhiên là rất ít có thể xảy ra, mặc dù không thể hiển thị chính xác.

Nếu một mô hình rủi ro được biết đến, hoặc các yếu tố dự đoán mạnh mẽ về kết quả có mặt, RCT hiệu quả và hợp lệ hơn được thực hiện bằng cách điều chỉnh đơn giản cho các yếu tố đó bất kể chúng có cân bằng giữa các nhóm điều trị hay không

Một trong những bài báo yêu thích của tôi, 7 huyền thoại về các thử nghiệm ngẫu nhiên có kiểm soát , thảo luận về điều này. Điều chỉnh cải thiện hiệu quả khi biến điều chỉnh được dự báo mạnh mẽ về kết quả. Nó chỉ ra rằng ngay cả với số dư 50/50 hoàn hảo, sử dụng ngẫu nhiên bị chặn nói, hoặc thậm chí là trùng hợp về cách ngẫu nhiên được thực hiện, việc điều chỉnh sẽ thu hẹp các TCTD, đòi hỏi ít người tham gia hơn để có một nghiên cứu được cung cấp như nhau; điều này làm giảm chi phí và rủi ro. Điều gây sốc là điều này không được thực hiện thường xuyên hơn.

Các nghiên cứu quan sát đòi hỏi phải có sự kiểm soát để gây nhiễu bất kể Bảng 1 cho thấy gì

Giả định ngẫu nhiên loại bỏ gây nhiễu. Với điều trị không thương tổn, có gây nhiễu. Một yếu tố gây nhiễu là một biến số là nguyên nhân của kết quả và dự đoán sẽ nhận được điều trị bán thí nghiệm. Không có thử nghiệm để xác định (các) biến nào là / là các yếu tố gây nhiễu. Nguy cơ nhìn trộm dữ liệu để trả lời những câu hỏi này là các yếu tố gây nhiễu hầu như không thể phân biệt được với các trung gian hoặc máy va chạm mà không hoàn toàn đo lường các giá trị theo chiều dọc (và thậm chí sau đó ...). Điều chỉnh cho các bộ trung gian làm giảm bất kỳ hiệu ứng nào, điều chỉnh máy va chạm có thể gây ra bất kỳ loại sai lệch nào. Hơn nữa, người ta không cần điều chỉnh cho một bộ các yếu tố gây nhiễu, mà là họ phải loại bỏ tiêu chí cửa sau.

Ví dụ, trong một nghiên cứu về chức năng phổi và hút thuốc ở thanh thiếu niên: trẻ lớn hơn có khả năng hút thuốc, nhưng vì chúng cao hơn, chức năng phổi của chúng sẽ lớn hơn. Nó chỉ ra việc điều chỉnh chiều cao một mình đủ để loại bỏ nhiễu vì nó đáp ứng tiêu chí cửa sau. Điều chỉnh thêm cho tuổi chỉ đơn giản là mất hiệu quả. Tuy nhiên, chỉ cần kiểm tra "sự cân bằng" của bảng 1 ở những người hút thuốc và không hút thuốc sẽ gợi ý rằng cả tuổi và chiều cao đều "mất cân bằng" và do đó nên được kiểm soát. Điều đó là không chính xác.

— Adam
nguồn

Tôi đồng ý với điều này và nhận thức rõ các vấn đề với giá trị p. (Bạn sẽ tìm thấy ít người trên trang web này hoặc có giá trị chống p nhiều hơn tôi). Và tôi là tất cả cho các phương pháp tốt hơn, một số trong đó bạn nâng cao. Tất nhiên, một số biến có thể là các bộ triệt (để bao gồm chúng làm tăng kích thước của hiệu ứng chính). Tuy nhiên, nếu tôi, nói, xem xét một bài báo cho một tạp chí, thì bạn có nghĩ rằng đề xuất kiểm tra tương đương cho bảng 1 là tốt, hoặc bạn sẽ đi cho câu trả lời đầy đủ của bạn ở đây?

— Peter Flom - Tái lập Monica

@PeterFlom Bây giờ tôi thấy bối cảnh tốt hơn một chút. Là một nhà phê bình thống kê, tôi sẽ xem xét liệu nhận xét có liên quan đến các phân tích tiếp theo hay không. Nếu nó không liên quan, tôi sẽ khuyến khích họ đưa ra nhận xét đó vì nó không hữu ích. Nếu nó có liên quan, tôi sẽ khuyến khích họ a) xem xét một phương pháp phân tích mạnh mẽ hơn hoặc b) sử dụng các phân tích độ nhạy để xác định xem có ảnh hưởng nào không. Sự cân bằng của hiệp phương sai chỉ quan trọng khi nó ảnh hưởng đến các phân tích, vì vậy đó là nơi tôi muốn sự chú ý được đưa ra. Nó không phải là một thiết kế phù hợp với xu hướng, có lẽ, phải không?

— AdamO

@PeterFlom Là một người đánh giá, sẽ không có ý nghĩa gì khi đề xuất loại bỏ các giá trị p trong "Bảng 1" hoàn toàn?

— amip nói phục hồi Monica

AdamO, câu trả lời tuyệt vời (+1), nhưng tôi hơi lo ngại bởi khuyến nghị rằng nhiều điều chỉnh thử nghiệm là "nên làm" trong ngữ cảnh của "Bảng 1". Là lỗi loại I của bất kỳ mối quan tâm ở đây? Tôi cảm thấy rằng trong trường hợp này, lỗi Loại II thực sự quan trọng hơn nhiều (người ta sẽ không muốn bỏ lỡ thực tế là một số biến số cơ bản khác nhau giữa các nhóm điều trị và nhóm kiểm soát). Sử dụng Bonferroni, lỗi Loại II sẽ tăng lên rất nhiều. Điều này có liên quan đến quan điểm của @ Peter về các thử nghiệm tương đương: theo nghĩa, các địa điểm trao đổi Loại I và Loại II nếu bạn chuyển sang quan điểm "tương đương".

— amip nói rằng Tái lập lại Monica

@amoeba Hoàn toàn đúng. Nếu chúng tôi nhấn mạnh vào phương pháp này (không phải khuyến nghị của tôi), NHST yêu cầu chúng tôi kiểm soát lỗi Loại I. Tôi nghĩ quan điểm của tôi là chúng ta nên kiểm soát FWER vì chúng ta không quan tâm đến biến nào bị mất cân bằng. Nó có thể được đặt thành một giá trị hào phóng như 0,2. Tôi không biết về bất kỳ thử nghiệm tương đương nào mà công suất tăng lên khi kích thước mẫu tăng lên, do đó, sự biện minh cho các thử nghiệm đó là dài dòng, chủ quan và không chính xác.

— AdamO