Đây là một vấn đề phức tạp giới thiệu nhiều vấn đề liên quan về: 1) chỉ định rõ ràng một giả thuyết, 2) hiểu cơ chế nhân quả nào (có thể) tạo ra hiệu ứng giả thuyết và 3) lựa chọn / phong cách trình bày.
Bạn nói đúng đó, nếu chúng ta áp dụng thực hành thống kê âm thanh, để khẳng định rằng "nhóm là tương tự", người ta sẽ phải thực hiện một cuộc thử nghiệm tương đương. Tuy nhiên, các thử nghiệm tương đương chịu các vấn đề tương tự như đối tác NHST của họ: sức mạnh chỉ là sự phản ánh kích thước mẫu và số lượng so sánh: chúng tôi mong đợi sự khác biệt, nhưng mức độ và ảnh hưởng của chúng đối với phân tích chính là quan trọng hơn nhiều.
Khi phải đối mặt với những tình huống này, các so sánh cơ bản hầu như luôn luôn là những kẻ thừa kế. Phương pháp tốt hơn (của khoa học và thống kê) có thể được áp dụng. Tôi có một vài khái niệm / câu trả lời chứng khoán mà tôi xem xét khi trả lời các câu hỏi như thế này.
Cột "tổng" quan trọng hơn cột chia tách điều trị; một cuộc thảo luận được bảo đảm về những giá trị đó.
Trong các thử nghiệm lâm sàng, mẫu an toàn thường được phân tích. Đây là tập hợp con của những người lần đầu tiên được tiếp cận, sau đó đồng ý, sau đó chọn ngẫu nhiên và cuối cùng tiếp xúc với ít nhất một lần kiểm soát hoặc điều trị. Trong quá trình đó, chúng tôi phải đối mặt với mức độ sai lệch tham gia khác nhau.
Có lẽ khía cạnh quan trọng nhất và bị bỏ qua của các nghiên cứu này là trình bày kết quả Bảng 1 trong tổng hợp . Điều này đạt được mục đích quan trọng nhất của Bảng 1: chứng minh cho các nhà điều tra khác biết mức độ khái quát của mẫu nghiên cứu đối với dân số rộng hơn trong đó các kết quả được áp dụng.
Tôi thấy thật đáng ngạc nhiên khi các nhà điều tra, độc giả và nhà phê bình cố định về các xu hướng tiếp tuyến trong các đặc điểm của bệnh nhân khi hoàn toàn không quan tâm đến các tiêu chí bao gồm / loại trừ và tính tổng quát của mẫu.
Tôi xấu hổ khi nói rằng tôi là một nhà phân tích trong một thử nghiệm mà coi đây là một vấn đề. Chúng tôi đã tuyển dụng bệnh nhân và sau đó, do vấn đề hậu cần, chúng tôi đã đợi gần một năm trước khi thực hiện can thiệp. Biểu đồ phối hợp không chỉ cho thấy sự sụt giảm lớn giữa các giai đoạn đó, mà mẫu còn thay đổi. Kết quả là phần lớn không có / thiếu việc làm, già và khỏe mạnh hơn những người chúng ta dự định tiếp cận. Tôi đã có những lo ngại sâu sắc về tính khái quát của nghiên cứu, nhưng rất khó để vận động cho những mối quan tâm đó được biết đến.
Lỗi công suất và loại I của các thử nghiệm để phát hiện sự mất cân bằng trong các đặc điểm cơ bản phụ thuộc vào số lượng đặc điểm thực tế
Điểm của việc trình bày một danh sách chi tiết các biến số cơ bản như đã đề cập trước đây là đưa ra một ảnh chụp nhanh về mẫu; lịch sử bệnh nhân, phòng thí nghiệm, thuốc men và nhân khẩu học của họ. Đây là tất cả các khía cạnh mà các bác sĩ lâm sàng sử dụng để đề nghị điều trị cho bệnh nhân. Họ đều tin rằng sẽ dự đoán kết quả. Nhưng số lượng các yếu tố như vậy là đáng kinh ngạc. Có thể so sánh 30 biến khác nhau. Rủi ro thô của lỗi loại I là 1- (1-0,05) ^ 30 = 0,79. Bonferroni hoặc hiệu chỉnh hoán vị được khuyến khích nếu thử nghiệm phải được thực hiện.
Kiểm tra thống kê ở dạng tinh khiết nhất của nó có nghĩa là vô tư, và nó được cho là được quy định trước. Tuy nhiên, sự lựa chọn và trình bày các đặc điểm cơ bản thường là tương đối. Tôi cảm nhận được sự tiếp cận thứ hai là thích hợp: nếu chúng ta thấy, như trong thử nghiệm của tôi, có những đặc điểm thú vị mà mô tả mẫu một cách hiệu quả, chúng ta nên có sự tự do để lựa chọn để trình bày những giá trị đặc biệt . Thử nghiệm có thể được thực hiện nếu nó có giá trị, nhưng hãy cẩn thận thông thường: chúng không phải là giả thuyết đáng quan tâm, có nguy cơ nhầm lẫn cao về kết quả quan trọng và không quan trọng, và kết quả phản ánh nhiều hơn cỡ mẫu và cân nhắc trình bày hơn bất kỳ sự thật nào.
Rerandomization có thể được thực hiện, nhưng chỉ trước khi bệnh nhân được tiếp xúc với điều trị
Như tôi đã đề cập, mẫu được phân tích thường là mẫu an toàn. Tuy nhiên, rerandomization là một cách tiếp cận mạnh mẽ và phù hợp về mặt lý thuyết cho những bệnh nhân chưa được tiếp xúc với nghiên cứu điều trị. Điều này chỉ áp dụng cho các cài đặt trong đó đăng ký hàng loạt được thực hiện. Tại đây, 100 người tham gia được tuyển dụng và chọn ngẫu nhiên. Ví dụ, nếu xác suất chỉ định một tỷ lệ cao người cao tuổi cho một nhóm, thì mẫu có thể được phân nhóm lại để cân bằng tuổi. Điều này không thể được thực hiện với tuyển sinh tuần tự hoặc so le, đó là bối cảnh trong đó hầu hết các thử nghiệm được thực hiện. Điều này là do thời gian ghi danh có xu hướng dự đoán tình trạng bệnh nhân theo trường hợp phổ biến "sai lệch" (sự cố khó hiểu và tiêu chí đủ điều kiện phổ biến).
Thiết kế cân bằng không phải là một yêu cầu cho suy luận hợp lệ
Giả định ngẫu nhiên nói rằng, về mặt lý thuyết, tất cả những người tham gia sẽ có trung bình các phân phối đồng biến bằng nhau. Tuy nhiên, như đã đề cập trước đó, khi so sánh 30 cấp trở lên, xác suất mất cân bằng tích lũy là không đáng kể. Trong thực tế, sự mất cân bằng của hiệp phương sai có thể không liên quan khi xem xét toàn bộ.
Nếu ngẫu nhiên là công bằng, chúng ta có thể thấy tuổi được tăng lên trong nhóm điều trị, nhưng hút thuốc được nâng lên trong nhóm kiểm soát: cả hai đều đóng góp riêng lẻ vào nguy cơ kết quả. Điều cần thiết cho suy luận hiệu quả và hợp lệ là điểm số xu hướng được cân bằng giữa các nhóm. Đây là một điều kiện yếu hơn nhiều. Thật không may, xu hướng không thể được kiểm tra để cân bằng mà không có mô hình rủi ro. Tuy nhiên, thật dễ dàng để thấy rằng xu hướng như vậy phụ thuộc vào sự kết hợp của các hiệp phương sai và khả năng mất cân bằng về xu hướng trong một mẫu ngẫu nhiên là rất ít có thể xảy ra, mặc dù không thể hiển thị chính xác.
Nếu một mô hình rủi ro được biết đến, hoặc các yếu tố dự đoán mạnh mẽ về kết quả có mặt, RCT hiệu quả và hợp lệ hơn được thực hiện bằng cách điều chỉnh đơn giản cho các yếu tố đó bất kể chúng có cân bằng giữa các nhóm điều trị hay không
Một trong những bài báo yêu thích của tôi, 7 huyền thoại về các thử nghiệm ngẫu nhiên có kiểm soát , thảo luận về điều này. Điều chỉnh cải thiện hiệu quả khi biến điều chỉnh được dự báo mạnh mẽ về kết quả. Nó chỉ ra rằng ngay cả với số dư 50/50 hoàn hảo, sử dụng ngẫu nhiên bị chặn nói, hoặc thậm chí là trùng hợp về cách ngẫu nhiên được thực hiện, việc điều chỉnh sẽ thu hẹp các TCTD, đòi hỏi ít người tham gia hơn để có một nghiên cứu được cung cấp như nhau; điều này làm giảm chi phí và rủi ro. Điều gây sốc là điều này không được thực hiện thường xuyên hơn.
Các nghiên cứu quan sát đòi hỏi phải có sự kiểm soát để gây nhiễu bất kể Bảng 1 cho thấy gì
Giả định ngẫu nhiên loại bỏ gây nhiễu. Với điều trị không thương tổn, có gây nhiễu. Một yếu tố gây nhiễu là một biến số là nguyên nhân của kết quả và dự đoán sẽ nhận được điều trị bán thí nghiệm. Không có thử nghiệm để xác định (các) biến nào là / là các yếu tố gây nhiễu. Nguy cơ nhìn trộm dữ liệu để trả lời những câu hỏi này là các yếu tố gây nhiễu hầu như không thể phân biệt được với các trung gian hoặc máy va chạm mà không hoàn toàn đo lường các giá trị theo chiều dọc (và thậm chí sau đó ...). Điều chỉnh cho các bộ trung gian làm giảm bất kỳ hiệu ứng nào, điều chỉnh máy va chạm có thể gây ra bất kỳ loại sai lệch nào. Hơn nữa, người ta không cần điều chỉnh cho một bộ các yếu tố gây nhiễu, mà là họ phải loại bỏ tiêu chí cửa sau.
Ví dụ, trong một nghiên cứu về chức năng phổi và hút thuốc ở thanh thiếu niên: trẻ lớn hơn có khả năng hút thuốc, nhưng vì chúng cao hơn, chức năng phổi của chúng sẽ lớn hơn. Nó chỉ ra việc điều chỉnh chiều cao một mình đủ để loại bỏ nhiễu vì nó đáp ứng tiêu chí cửa sau. Điều chỉnh thêm cho tuổi chỉ đơn giản là mất hiệu quả. Tuy nhiên, chỉ cần kiểm tra "sự cân bằng" của bảng 1 ở những người hút thuốc và không hút thuốc sẽ gợi ý rằng cả tuổi và chiều cao đều "mất cân bằng" và do đó nên được kiểm soát. Điều đó là không chính xác.