Có thể phân tích tổng hợp các nghiên cứu mà tất cả các quốc gia không phải là người có ý nghĩa thống kê có thể dẫn đến một kết luận quan trọng của người Hồi giáo không?


29

Một phân tích tổng hợp bao gồm một loạt các nghiên cứu, tất cả đều báo cáo giá trị P lớn hơn 0,05. Có thể phân tích tổng thể để báo cáo giá trị P nhỏ hơn 0,05 không? Trong bất kì trường hợp nào?

(Tôi khá chắc chắn câu trả lời là có, nhưng tôi muốn tham khảo hoặc giải thích.)


1
Tôi không biết nhiều về phân tích tổng hợp, nhưng tôi có ấn tượng rằng nó không liên quan đến bất kỳ thử nghiệm giả thuyết nào, chỉ là ước tính về hiệu ứng dân số, trong trường hợp không có ý nghĩa nào để nói.
Kodiologist

1
Chà, một bài phân tích tổng hợp vào cuối ngày chỉ là một ý nghĩa có trọng số. Và bạn chắc chắn có thể thiết lập một bài kiểm tra giả thuyết cho ý nghĩa có trọng số đó. Xem, ví dụ, Borenstein, Michael, et al. "Giới thiệu cơ bản về các mô hình hiệu ứng random hiệu ứng và ngẫu nhiên cố định để phân tích meta.." Phương pháp tổng hợp nghiên cứu 1.2 (2010): 97-11.
boscovich

1
Các câu trả lời khác cũng tốt, nhưng một trường hợp đơn giản: hai nghiên cứu có ý nghĩa với p = 0,9 nhưng không phải p = 0,95. Xác suất hai nghiên cứu độc lập sẽ chỉ ra p> = 0,9 chỉ 0,01, vì vậy phân tích tổng hợp của bạn có thể cho thấy ý nghĩa ở p = 0,99
barrycarter

2
Lấy giới hạn: Không một phép đo nào có thể cung cấp đủ bằng chứng cho / chống lại giả thuyết (không cần thiết) có giá trị nhỏ , nhưng một bộ sưu tập các phép đo đủ lớn có thể. p
Tháp Eric

giá trị p- không biểu thị "có ý nghĩa thống kê" hoặc hiệu quả không đáng kể. Chúng ta có thể hiểu gì từ một kết luận quan trọng? Nó có phải là một kết luận phân tích tổng hợp?
Subhash C. Davar

Câu trả lời:


31

Về lý thuyết, vâng ...

Kết quả của các nghiên cứu cá nhân có thể không đáng kể nhưng nhìn chung, kết quả có thể là đáng kể.

Về lý thuyết, bạn có thể tiến hành bằng cách xử lý kết quả của nghiên cứu giống như bất kỳ biến ngẫu nhiên nào khác. iyii

Đặt là một số biến ngẫu nhiên (ví dụ: ước tính từ nghiên cứu ). Sau đó, nếu độc lập và , bạn luôn có thể ước tính giá trị trung bình với: i y i E [ y i ] = μyiiyiE[yi]=μ

μ^=1niyi

Thêm nhiều giả định, hãy để là phương sai của ước tính . Sau đó, bạn có thể ước tính hiệu quả với trọng số phương sai nghịch đảo: y i μσi2yiμ

μ^=iwiyiwi=1/σi2j1/σj2

Trong cả hai trường hợp này, có thể có ý nghĩa thống kê ở một mức độ tin cậy nào đó ngay cả khi các ước tính riêng lẻ thì không.μ^

NHƯNG có thể có những vấn đề lớn, những vấn đề cần nhận thức về ...

  1. Nếu thì phân tích meta có thể không hội tụ thành (nghĩa là giá trị trung bình của phân tích meta là một công cụ ước tính không nhất quán).LE[yi]μμ

    Ví dụ: nếu có sự thiên vị chống lại việc công bố kết quả tiêu cực, phân tích tổng hợp đơn giản này có thể không nhất quán và sai lệch khủng khiếp! Nó sẽ giống như ước tính xác suất một đồng xu lật xuống đầu bằng cách chỉ quan sát các lần lật mà nó không chạm đuôi!

  2. y j i j y i y jyi và có thể không độc lập. Ví dụ: nếu hai nghiên cứu và dựa trên cùng một dữ liệu, thì việc coi và là độc lập trong phân tích tổng hợp có thể đánh giá rất thấp các lỗi tiêu chuẩn và quá mức ý nghĩa thống kê. Ước tính của bạn sẽ vẫn nhất quán, nhưng các lỗi tiêu chuẩn cần tính toán hợp lý cho mối tương quan chéo trong các nghiên cứu.yjijyiyj

  3. Kết hợp (1) và (2) có thể đặc biệt xấu.

    Ví dụ, phân tích tổng hợp các cuộc thăm dò trung bình cùng nhau có xu hướng chính xác hơn bất kỳ cuộc thăm dò cá nhân nào. Nhưng các cuộc thăm dò trung bình với nhau vẫn dễ bị lỗi tương quan. Một cái gì đó đã được đưa ra trong các cuộc bầu cử trước đây là nhân viên thăm dò ý kiến ​​trẻ có thể có xu hướng phỏng vấn những người trẻ tuổi hơn là người già. Nếu tất cả các cuộc thăm dò ý kiến ​​thoát đều có cùng một lỗi, thì bạn có một ước tính xấu mà bạn có thể nghĩ là ước tính tốt (các cuộc thăm dò ý kiến ​​tương quan vì chúng sử dụng cùng một cách tiếp cận để tiến hành các cuộc thăm dò và cách tiếp cận này tạo ra cùng một lỗi).

Không còn nghi ngờ gì nữa, những người quen thuộc hơn với phân tích tổng hợp có thể đưa ra các ví dụ tốt hơn, các vấn đề sắc thái hơn, các kỹ thuật ước lượng phức tạp hơn, v.v ..., nhưng điều này có một số lý thuyết cơ bản nhất và một số vấn đề lớn hơn. Nếu các nghiên cứu khác nhau tạo ra lỗi độc lập, ngẫu nhiên, thì phân tích tổng hợp có thể cực kỳ mạnh mẽ. Nếu lỗi này có hệ thống trong các nghiên cứu (ví dụ: tất cả mọi người đều vượt qua các cử tri lớn tuổi hơn v.v ...), thì trung bình của các nghiên cứu cũng sẽ bị tắt. Nếu bạn đánh giá thấp các nghiên cứu tương quan là như thế nào hoặc các lỗi tương quan như thế nào, thì bạn đã ước tính quá mức kích thước mẫu tổng hợp của mình và đánh giá thấp các lỗi tiêu chuẩn của bạn.

Ngoài ra còn có tất cả các loại vấn đề thực tế của định nghĩa nhất quán, v.v ...


1
Tôi đang chỉ trích một phân tích tổng hợp về việc bỏ qua sự phụ thuộc giữa các kích thước hiệu ứng (nghĩa là nhiều kích thước hiệu ứng được dựa trên cùng một người tham gia, nhưng được coi là độc lập). Các tác giả nói không có vấn đề gì, chúng tôi chỉ quan tâm đến người điều hành dù sao đi nữa. Tôi đang đưa ra quan điểm mà bạn đưa ra ở đây: coi chúng "là độc lập trong phân tích tổng hợp có thể đánh giá rất thấp các lỗi tiêu chuẩn và ý nghĩa thống kê quá mức." Có một nghiên cứu bằng chứng / mô phỏng cho thấy tại sao đây là trường hợp? Tôi có rất nhiều tài liệu tham khảo nói rằng các lỗi tương quan có nghĩa là đánh giá thấp SE ... nhưng tôi không biết tại sao?
Đánh dấu

1
@MarkWhite Ý tưởng cơ bản không phức tạp hơn . Nếu với tất cả chúng ta có và cho thì và lỗi tiêu chuẩn của bạn là . Mặt khác, nếu các điều khoản hiệp phương sai là dương và lớn, thì sai số chuẩn sẽ lớn hơn. iVar(Xi)=σ2Cov(Xi,Xj)=0ijVar(1Var(1niXi)=1n2(iVar(Xi)+ijCov(Xi,Xj))iVar(Xi)=σ2Cov(Xi,Xj)=0ij σVar(1niXi)=σ2nσn
Matthew Gunn

@MarkWhite Tôi không phải là chuyên gia phân tích tổng hợp và thực lòng tôi không biết đâu là nguồn tuyệt vời để làm thế nào một người nên làm phân tích tổng hợp, hiện đại. Về mặt khái niệm, sao chép phân tích trên cùng một dữ liệu chắc chắn rất hữu ích (như đang nghiên cứu chuyên sâu một số môn học), nhưng nó không giống như tái tạo một phát hiện về các chủ đề độc lập mới.
Matthew Gunn

1
À, vì vậy, trong các từ: Tổng phương sai của kích thước hiệu ứng xuất phát từ (a) phương sai của nó và (b) nó là hiệp phương sai với các kích thước hiệu ứng khác. Nếu hiệp phương sai bằng 0, thì ước tính sai số chuẩn là ổn; nhưng nếu nó đồng biến với các kích thước hiệu ứng khác, chúng ta cần tính đến phương sai đó và bỏ qua nó có nghĩa là chúng ta đang đánh giá thấp phương sai. Giống như phương sai được tạo thành từ hai phần A và B, và bỏ qua các phụ thuộc giả định rằng phần B là 0 khi nó không?
Đánh dấu

1
Ngoài ra, đây có vẻ là một nguồn tốt (đặc biệt là Hộp 2): Nature.com/neuro/journal/v17/n4/pdf/nn.3648.pdf
Mark White

29

Vâng. Giả sử bạn có giá trị p từ nghiên cứu độc lập.NNN

Kiểm tra của Fisher

(EDIT - để phản hồi bình luận hữu ích của @ mdewey bên dưới, có thể phân biệt giữa các thử nghiệm meta khác nhau. Tôi đánh vần trường hợp của một thử nghiệm meta khác được đề cập bởi mdewey bên dưới)

Kiểm tra meta Fisher cổ điển (xem Fisher (1932), "Phương pháp thống kê cho công nhân nghiên cứu" ) thống kê có phân phối null , như cho một rv thống nhất .

F=2i=1Nln(pi)
χ2N22ln(U)χ22U

Đặt biểu thị chất lượng của phân phối null.χ2N2(1α)(1α)

Giả sử tất cả các giá trị p đều bằng , trong đó, có thể, . Sau đó, và khi Ví dụ: với và , các giá trị riêng lẻ chỉ cần nhỏ hơncc>αF=2Nln(c)F>χ2N2(1α)

c<exp(χ2N2(1α)2N)
α=0.05N=20p
> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904

Tất nhiên, những gì các kiểm tra thống kê meta là "chỉ" null "tổng hợp" mà tất cả các null riêng lẻ là đúng, điều này sẽ bị từ chối ngay khi chỉ một trong số null là sai.N

CHỈNH SỬA:

Dưới đây là một biểu đồ của các giá trị p "có thể chấp nhận" đối với , xác nhận rằng phát triển trong , mặc dù nó dường như chững lại ở .NcNc0.36

nhập mô tả hình ảnh ở đây

Tôi đã tìm thấy một giới hạn trên cho các lượng tử của phân phối ở đây , gợi ý rằng sao cho được giới hạn từ phía trên bởi là . Vì , ràng buộc này có vẻ khá sắc nét.χ2

χ2N2(1α)2N+2log(1/α)+22Nlog(1/α),
χ2N2(1α)=O(N)exp(χ2N2(1α)2N)exp(1)Nexp(1)0.3679

Kiểm tra nghịch đảo bình thường (Stouffer et al., 1949)

Thống kê kiểm tra được đưa ra bởi với tiêu chuẩn thông thường hàm lượng tử. Thử nghiệm từ chối các giá trị âm lớn, viz., Nếu tại . Do đó, với , . Khi , và do đó là . Nếu , sẽ có giá trị trong khu vực chấp nhận cho bất kỳ . Do đó, giá trị p chung nhỏ hơn 0,5 là đủ để tạo ra từ chối kiểm tra meta dưới dạng

Z=1Ni=1NΦ1(pi)
Φ1Z<1.645α=0.05pi=cZ=NΦ1(c)c<0.5Φ1(c)<0ZpNc0.5ZNN.

Cụ thể hơn, nếu , có xu hướng từ bên dưới là .Z<1.645c<Φ(1.645/N)Φ(0)=0.5N


2
+1 và wow! không mong đợi có một giới hạn trên nào cả, huống chi là . 1/e
amip nói rằng Phục hồi Monica

Cảm ơn :-). Tôi cũng không mong đợi điều đó trước khi tôi thấy cốt truyện ...
Christoph Hanck

5
Điều thú vị là phương pháp do Fisher là một trong những phương thức được sử dụng phổ biến có tính chất này. Đối với hầu hết những người khác, cái mà bạn gọi là F tăng với N nếu $ c> 0,5) và giảm đi. Điều đó áp dụng cho phương pháp của Stouffer và phương pháp của Edgington cũng như các phương pháp dựa trên nhật ký và trung bình của p. Các phương pháp khác nhau trong các trường hợp đặc biệt của phương pháp Wilkinson (p tối thiểu, p tối đa, v.v.) lại có các thuộc tính khác nhau.
mdewey

1
@mdewey, điều đó thực sự thú vị, tôi chỉ chọn thử nghiệm của Fisher hoàn toàn vì nó xuất hiện trong đầu tôi. Điều đó nói rằng, "chỉ có một", bạn có nghĩa là ràng buộc cụ thể ? Nhận xét của bạn, rằng tôi cố gắng đánh vần trong bản chỉnh sửa của mình, đề nghị với tôi rằng phương pháp của Stouffer cũng có giới hạn trên, hóa ra là 0,5? 1/e
Christoph Hanck

Tôi sẽ không có thời gian để nghiên cứu vấn đề này trong một tuần nữa nhưng tôi nghĩ rằng nếu bạn có mười nghiên cứu với bạn sẽ có được một tổng thể gần với sự thống nhất vì không có sự khác biệt. Có thể có một vấn đề một so với hai mặt ở đây. Nếu bạn muốn xem thêm tài liệu, tôi có một bản thảo các công cụ bổ sung để đi vào gói R <code> metap </ code> của tôi ở đây mà bạn có thể sử dụng miễn phí để mở rộng câu trả lời của mình nếu muốn. p=0.9p
mdewey

4

Câu trả lời cho điều này phụ thuộc vào phương pháp bạn sử dụng để kết hợp giá trị . Các câu trả lời khác đã xem xét một số trong số này nhưng ở đây tôi tập trung vào một phương pháp mà câu trả lời cho câu hỏi ban đầu là không.p

Phương thức tối thiểu , còn được gọi là phương pháp của Tippett, thường được mô tả dưới dạng từ chối ở cấp của giả thuyết null. Xác định cho các nghiên cứu . Phương thức của Tippett sau đó đánh giá xem α * p [ 1 ]p [ 2 ] ... p [ k ] k p [ 1 ] < 1 - ( 1 - α * ) 1pα

p[1]p[2]p[k]
k
p[1]<1(1α)1k

Dễ dàng nhận thấy vì gốc thứ của một số nhỏ hơn đơn vị gần với thống nhất, số hạng cuối cùng lớn hơn và do đó kết quả chung sẽ không đáng kể trừ khi đã ít hơn hơn .α * p [ 1 ] α *kαp[1]α

Có thể tính ra giá trị tới hạn và ví dụ nếu chúng ta có mười nghiên cứu chính, mỗi nghiên cứu có giá trị là 00,05 sao cho gần với mức có thể thì giá trị tới hạn là 0,40. Phương pháp này có thể được xem là trường hợp đặc biệt của phương pháp Wilkinson, sử dụng cho và trên thực tế đối với tập hợp nghiên cứu chính cụ thể thậm chí không đáng kể ( )p [ r ] 1 r k r = 2 p = 0,09pp[r]1rkr=2p=0.09

Phương pháp của LHC Tippett được mô tả trong một cuốn sách Các phương pháp thống kê. 1931 (ed 1) và phương pháp Wilkinson là ở đây trong một bài báo "Một xem xét thống kê trong nghiên cứu tâm lý"


1
Cảm ơn. Nhưng lưu ý rằng hầu hết các phương pháp phân tích tổng hợp kết hợp kích thước hiệu ứng (chiếm bất kỳ sự khác biệt nào về kích thước mẫu) và không kết hợp các giá trị P.
Harvey Motulsky

@HarveyMotulsky đồng ý, kết hợp giá trị p là giải pháp cuối cùng nhưng OP đã gắn thẻ câu hỏi của anh ấy với thẻ kết hợp giá trị p để tôi trả lời theo tinh thần đó
mdewey

Tôi nghĩ rằng câu trả lời của bạn là chính xác.
Subhash C. Davar
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.