Làm thế nào để phát hiện cái nào là nghiên cứu tốt hơn khi chúng cho bạn kết quả mâu thuẫn?

11

Bạn thường xuyên đi qua báo chí các nghiên cứu khác nhau mà kết luận hướng kết quả ngược lại. Những thứ này có thể liên quan đến việc thử nghiệm một loại thuốc theo toa mới hoặc bằng khen của một chất dinh dưỡng cụ thể hoặc bất cứ thứ gì khác cho vấn đề đó.

Khi hai nghiên cứu như vậy đi đến kết quả mâu thuẫn, làm thế nào bạn có thể biết một trong hai nghiên cứu gần nhất với sự thật?

hypothesis-testing clinical-trials

— Sympa
nguồn

Có lẽ đây nên là CW? Sẽ không có câu trả lời duy nhất cho câu hỏi này và nhiều quan điểm và cách tiếp cận có thể xuất hiện.

— whuber

2

@whuber Tôi sẽ bỏ phiếu chống lại CW vì ngay cả khi có những quan điểm khác nhau thì vẫn có khả năng là một cách tiếp cận tốt nhất . Điều này tương tự như cách mà cùng một giả thuyết có thể được kiểm tra bằng cách sử dụng các khung / mô hình khác nhau nhưng có khả năng là một cách tiếp cận tốt nhất.

@Srikant: Trong mọi trường hợp cụ thể, tôi có thể tưởng tượng bạn có thể tích lũy một sự bảo vệ mạnh mẽ để hỗ trợ cho sự quyết đoán của mình. Nói chung, mặc dù - đó là tình huống hiện tại - câu trả lời tốt nhất sẽ phụ thuộc vào bối cảnh. Như một ví dụ đơn giản (và không đầy đủ), hãy suy ngẫm về sự khác biệt giữa việc đánh giá một cặp thí nghiệm vật lý được thiết kế (như đo tốc độ ánh sáng, trong lịch sử hầu hết các khoảng tin cậy đã bỏ lỡ sự thật!) Và một nghiên cứu quan sát trong khoa học xã hội .

— whuber

@whuber Có lẽ, chúng ta nên tiếp tục cuộc trò chuyện này trên meta. Tôi thừa nhận rằng tôi vẫn còn mơ hồ về việc khi nào nên sử dụng CW và khi nào không nhưng để đưa ra quan điểm của bạn: câu trả lời tốt nhất cho câu hỏi này sau đó sẽ là câu trả lời phụ thuộc vào ngữ cảnh và giải thích tại sao thông qua một vài ví dụ. Trong mọi trường hợp, bằng cách nào đó tôi cảm thấy rằng câu hỏi này không nên là CW nhưng tôi không thể nói rõ hơn bất kỳ lý do nào ngoài những lý do tôi đã nêu ở trên.

3

Tôi nghĩ câu trả lời của Jeromy là đủ nếu bạn đang kiểm tra hai nghiên cứu thử nghiệm hoặc phân tích tổng hợp thực tế. Nhưng thường thì chúng ta phải đối mặt với việc kiểm tra hai nghiên cứu phi thực nghiệm và được giao nhiệm vụ đánh giá tính hợp lệ của hai phát hiện khác nhau đó.

Như danh sách các câu hỏi tạp hóa của Cyrus cho thấy, bản thân chủ đề không thể đáp ứng ngắn, và toàn bộ các cuốn sách về bản chất là nhằm giải quyết một câu hỏi như vậy. Đối với bất kỳ ai quan tâm đến việc tiến hành nghiên cứu về dữ liệu phi thực nghiệm, tôi rất khuyến nghị bạn đọc

Các thiết kế thử nghiệm và bán thử nghiệm cho suy luận nguyên nhân tổng quát của William R. Shadish, Thomas D. Cook, Donald Thomas Campbell (Ngoài ra tôi đã nghe nói rằng các phiên bản cũ hơn của văn bản này cũng tốt như vậy).

Một số mục mà Jeromy đề cập (cỡ mẫu lớn hơn và độ nghiêm ngặt về phương pháp lớn hơn) và mọi thứ mà Cyrus đề cập sẽ được coi là thứ mà Campbell và Cook gọi là "Hiệu lực nội bộ". Chúng bao gồm các khía cạnh của thiết kế nghiên cứu và các phương pháp thống kê được sử dụng để đánh giá mối quan hệ giữa X và Y. Đặc biệt là các nhà phê bình, chúng tôi lo ngại về các khía cạnh có thể làm sai lệch kết quả và làm giảm độ tin cậy của các phát hiện. Vì đây là một diễn đàn dành cho phân tích thống kê, phần lớn các câu trả lời tập trung vào các phương pháp thống kê để đảm bảo các ước tính không thiên vị về bất kỳ mối quan hệ nào bạn đang đánh giá. Nhưng chúng là những khía cạnh khác của thiết kế nghiên cứu không liên quan đến phân tích thống kê làm giảm tính hợp lệ của các phát hiện cho dù người ta đi sâu vào phân tích thống kê nào (chẳng hạn như Cyrus đề cập đến một số khía cạnh của độ trung thực thử nghiệm có thể được giải quyết nhưng không được giải quyết phương pháp thống kê, và nếu chúng xảy ra sẽ luôn làm giảm tính hợp lệ của kết quả nghiên cứu). Có nhiều khía cạnh khác của tính hiệu lực nội bộ trở nên quan trọng để đánh giá khi so sánh kết quả của các nghiên cứu phi thực nghiệm không được đề cập ở đây và các khía cạnh của các thiết kế nghiên cứu có thể phân biệt độ tin cậy của các phát hiện. Tôi không nghĩ nó khá thích hợp để đi vào quá nhiều chi tiết ở đây,

Campbell và Cook cũng đề cập đến "tính hợp lệ bên ngoài" của các nghiên cứu. Khía cạnh này của thiết kế nghiên cứu thường có phạm vi nhỏ hơn nhiều và không đáng được quan tâm nhiều như hiệu lực nội bộ. Hiệu lực bên ngoài về cơ bản liên quan đến tính tổng quát của các phát hiện, và tôi sẽ nói rằng giáo dân thường có thể đánh giá tính hợp lệ bên ngoài một cách hợp lý miễn là họ quen thuộc với chủ đề này. Câu chuyện dài đọc cuốn sách của Shadish, Cook và Campbell.

— Andy W
nguồn

8

Các tài liệu phân tích meta có liên quan đến câu hỏi của bạn. Sử dụng các kỹ thuật phân tích tổng hợp, bạn có thể tạo ra một ước tính về tác động của lợi ích được tập hợp trong các nghiên cứu. Các kỹ thuật như vậy thường nghiên cứu trọng lượng về kích thước mẫu của họ.

Trong bối cảnh phân tích meta, các nhà nghiên cứu nói về các mô hình hiệu ứng cố định và hiệu ứng ngẫu nhiên (xem Hunter và Schmidt, 2002 ). Một mô hình hiệu ứng cố định giả định rằng tất cả các nghiên cứu đang ước tính cùng một hiệu ứng dân số. Một mô hình hiệu ứng ngẫu nhiên giả định rằng các nghiên cứu khác nhau về hiệu ứng dân số đang được ước tính. Một mô hình hiệu ứng ngẫu nhiên thường thích hợp hơn.

Khi nhiều nghiên cứu tích lũy nhìn vào một mối quan hệ cụ thể, các phương pháp tinh vi hơn trở nên khả thi. Ví dụ, bạn có thể mã hóa các nghiên cứu theo các đặc tính khác nhau, chẳng hạn như chất lượng cảm nhận, sau đó kiểm tra theo kinh nghiệm xem kích thước hiệu ứng có thay đổi theo các đặc điểm nghiên cứu này hay không. Ngoài chất lượng, có thể có một số khác biệt về mặt lý thuyết giữa các nghiên cứu sẽ điều chỉnh mối quan hệ (ví dụ, đặc trưng của mẫu, mức liều, v.v.).

Nói chung, tôi có xu hướng tin tưởng các nghiên cứu với:

cỡ mẫu lớn hơn
sự nghiêm ngặt về phương pháp
một định hướng xác nhận (ví dụ, không phải là một nghiên cứu mà họ đã thử nghiệm về mối tương quan giữa 100 chất dinh dưỡng khác nhau và 50 kết quả sức khỏe)
không có xung đột lợi ích (ví dụ, không phải bởi một công ty có lợi ích thương mại trong việc thể hiện mối quan hệ; không phải bởi một nhà nghiên cứu có động cơ để tìm thấy một kết quả quan trọng)

Nhưng điều đó nói rằng bạn cần giữ lấy mẫu ngẫu nhiên và sự khác biệt có ý nghĩa về mặt lý thuyết giữa các nghiên cứu như một lời giải thích hợp lý về kết quả nghiên cứu mâu thuẫn.

— Jeromy Anglim
nguồn

Tôi đặc biệt thích tỷ lệ khả năng như một phương tiện tổng hợp bằng chứng trong phân tích tổng hợp; nếu bạn có đủ dữ liệu để tính toán chúng cho mỗi nghiên cứu, bạn chỉ cần tính toán sản phẩm qua các nghiên cứu để trình bày bằng chứng tổng hợp cho / chống lại một giả thuyết.

— Mike Lawrence

Tôi đã nhận xét về mức độ phù hợp (ir) của phân tích meta sau câu trả lời của Cyrus, nhưng đã nâng cao phản hồi này cho mọi thứ khác, đặc biệt là các gạch đầu dòng.

— whuber

@whuber @ Gaetan câu hỏi giả định rằng một nghiên cứu gần với sự thật hơn. Tôi cố gắng lùi một bước và xác định các biến thể trong kết quả giữa các nghiên cứu trong khuôn khổ phân tích tổng hợp, thừa nhận khả năng các nghiên cứu có thể có chất lượng như nhau, nhưng việc lấy mẫu ngẫu nhiên hoặc khác biệt thực chất có thể là lời giải thích.

— Jeromy Anglim

@whuber Ngay cả với hai nghiên cứu, có thể hình thành ước tính phân tích tổng hợp về hiệu quả của sự quan tâm. Tất nhiên, khoảng tin cậy của ước tính hiệu quả có thể lớn. Nhưng một mức độ không chắc chắn cao sẽ được dự kiến nếu chỉ có hai nghiên cứu được thực hiện và chúng đang cho kết quả mâu thuẫn.

— Jeromy Anglim

5

Tôi sẽ không xem xét phân tích tổng hợp cho đến khi bạn xem xét kỹ lưỡng các nguồn nếu sự thiên vị hoặc biến thiên tiềm năng trong quần thể mục tiêu. Nếu đây là những nghiên cứu về hiệu quả điều trị, liệu điều trị có được chỉ định ngẫu nhiên không? Có sự sai lệch so với giao thức? Có sự không tuân thủ? Có thiếu dữ liệu kết quả? Các mẫu được vẽ từ cùng một khung? Có từ chối tham gia? Lỗi thực hiện? Các lỗi tiêu chuẩn đã được tính toán chính xác, chiếm tỷ lệ phân cụm và mạnh mẽ cho các giả định tham số khác nhau? Chỉ sau khi bạn trả lời những câu hỏi này, tôi mới nghĩ các vấn đề phân tích tổng hợp bắt đầu được đưa vào bức tranh. Hiếm khi có bất kỳ hai nghiên cứu phân tích tổng hợp nào là phù hợp, trừ khi bạn sẵn sàng đưa ra các giả định anh hùng.

— Cyrus
nguồn

Nhưng những bước này không phải là một phần của phân tích tổng hợp sao?

— chl

3

@chl: Đúng, nhưng vấn đề là các bước này đi đến cốt lõi của câu hỏi. Một phân tích tổng hợp sẽ chỉ hữu ích khi có nhiều nghiên cứu (không chỉ hai) và giá trị của chúng đã được đánh giá cẩn thận. Câu hỏi trước mắt chúng tôi thực sự là hỏi người ta đánh giá chất lượng của một nghiên cứu như thế nào, hoặc cặp nghiên cứu mâu thuẫn, ngay từ đầu. Cyrus đã chỉ ra một số trong nhiều khía cạnh của điều này; một điều trị hợp lý thường đòi hỏi một hoặc hai học kỳ học đại học. Trong ánh sáng này, tôi nghĩ rằng việc anh ta sử dụng thuật ngữ "anh hùng" là hơi quá!

— whuber

1

@whuber Vâng, tôi đồng ý với bạn và @Cyrus. Tất nhiên, đánh giá chất lượng và độ tin cậy của các nghiên cứu trước đây là một bước bắt buộc (và cần có thời gian để xem xét mọi nghiên cứu, đặc biệt là khi chúng tôi phải liên hệ với các tác giả vì thiếu thông tin trong MS); Tôi chỉ nghĩ rằng đây là một phần của phân tích tổng hợp và "phần thống kê" giảm để mang lại một bản tóm tắt định lượng về kết quả đáng tin cậy.

— chl