40.000 bài báo khoa học thần kinh có thể sai


67

Tôi đã xem bài viết này trên tờ Kinh tế học về một bài báo dường như tàn khốc [1] đặt ra nghi ngờ về "một cái gì đó giống như 40.000 nghiên cứu [fMRI] được công bố." Theo họ, lỗi này là do "các giả định thống kê sai lầm". Tôi đã đọc bài báo và thấy đó là một phần của vấn đề với nhiều sửa chữa so sánh, nhưng tôi không phải là chuyên gia về fMRI và tôi cảm thấy khó theo dõi.

Các giả định sai lầm mà các tác giả đang nói đến là gì? Tại sao những giả định được thực hiện? Những cách xung quanh thực hiện những giả định này là gì?

Mặt sau của tính toán phong bì cho biết 40.000 giấy tờ fMRI là hơn một tỷ đô la tài trợ (lương sinh viên tốt nghiệp, chi phí hoạt động, v.v.).


[1] Eklund và cộng sự, Thất bại cụm: Tại sao suy luận của fMRI về phạm vi không gian đã làm tăng tỷ lệ dương tính giả, PNAS 2016


17
Xem thêm bài viết về fMRI của cá hồi chết. có dây.com / 2009/09 / fmrisalmon
Phục hồi

1
Đó là một dòng thực sự tốt, đặc biệt trong nghiên cứu về bệnh lý thần kinh, bởi vì bạn hoàn toàn có thể hạn chế dương tính giả nhiều như bạn muốn, nhưng trong sự đánh đổi, bạn kết thúc với tỷ lệ âm tính giả rất lớn.
Firebug

10
Có một chút khác biệt giữa hai loại: giấy cá hồi là một câu chuyện ngụ ngôn nhỏ về tầm quan trọng của việc hiệu chỉnh nhiều so sánh, điều mà mọi người nên làm. Ngược lại, vấn đề PNAS cắn những người đang cố gắng làm "điều đúng đắn", nhưng bản thân sự điều chỉnh là một chút khó khăn.
Matt Krause

4
Tôi nghĩ rằng đây là một câu hỏi tuyệt vời để hỏi vì nó đi vào trọng tâm của nhiều so sánh điều chỉnh và các giả định chính trong việc tiến hành loại phân tích này trong bối cảnh của một nghiên cứu chung. Tuy nhiên, câu hỏi duy nhất trong văn bản là "có ai có nhiều kiến ​​thức hơn em muốn nhận xét về nó không?" đó là một phần rộng và không đặc hiệu. Nếu điều này có thể được tập trung vào một vấn đề thống kê cụ thể trong phạm vi của trung tâm trợ giúp, thì nó sẽ phù hợp hơn với diễn đàn này.
Phục hồi

2
Cảm ơn. Tôi chỉnh sửa câu hỏi để làm cho nó cụ thể hơn. Hãy cho tôi biết nếu tôi nên chỉnh sửa nó nhiều hơn.
R Greg Stacey

Câu trả lời:


69

Trên con số 40000

Các tin tức thực sự giật gân, nhưng bài báo thực sự có cơ sở. Các cuộc thảo luận đã nổ ra nhiều ngày trong phòng thí nghiệm của tôi, tất cả trong một bài phê bình thực sự cần thiết khiến các nhà nghiên cứu hướng nội công việc của họ. Tôi khuyên bạn nên đọc bài bình luận sau đây của Thomas Nichols , một trong những tác giả của "Thất bại cụm: Tại sao các suy luận của fMRI về phạm vi không gian đã thổi phồng tỷ lệ dương tính giả" (xin lỗi vì trích dẫn dài).

Tuy nhiên, có một con số tôi rất tiếc: 40.000. Khi cố gắng đề cập đến tầm quan trọng của kỷ luật fMRI, chúng tôi đã sử dụng một ước tính của toàn bộ tài liệu fMRI như số lượng nghiên cứu được đưa ra bởi những phát hiện của chúng tôi. Để bảo vệ chúng tôi, chúng tôi đã tìm thấy các vấn đề với suy luận kích thước cụm nói chung (nghiêm trọng đối với P = 0,01 CDT, sai lệch với P = 0,001), phương pháp suy luận chi phối, cho thấy phần lớn tài liệu bị ảnh hưởng. Con số trong tuyên bố tác động, tuy nhiên, đã được báo chí nổi tiếng chọn và đưa ra một cơn bão nhỏ. Do đó, tôi cảm thấy có trách nhiệm phải thực hiện ít nhất một ước tính sơ bộ về việc Có bao nhiêu bài viết mà công việc của chúng tôi ảnh hưởng đến? Tôi không phải là người theo chủ nghĩa thư tịch, và đây thực sự là một bài tập thô và sẵn sàng, nhưng hy vọng nó mang lại cảm giác về thứ tự của mức độ của vấn đề.

Mã phân tích (trong Matlab) được trình bày bên dưới, nhưng đây là phần mỏng: Dựa trên một số tính toán xác suất hợp lý, nhưng có lẽ các mẫu tài liệu dễ vỡ, tôi ước tính khoảng 15.000 bài sử dụng suy luận kích thước cụm với hiệu chỉnh cho nhiều thử nghiệm; trong số này, khoảng 3.500 sử dụng CDT P = 0,01. 3.500 là khoảng 9% của toàn bộ tài liệu, hoặc có lẽ hữu ích hơn, 11% giấy tờ có chứa dữ liệu gốc. (Tất nhiên một số trong số 15.000 hoặc 3.500 này có thể sử dụng suy luận không theo tỷ lệ, nhưng thật không may là hiếm khi xảy ra đối với fMRI, đó là công cụ suy luận mặc định cho các phân tích VBM / DTI cấu trúc trong FSL).

Tôi thẳng thắn nghĩ rằng con số này sẽ cao hơn, nhưng không nhận ra tỷ lệ lớn các nghiên cứu không bao giờ sử dụng bất kỳ loại hiệu chỉnh thử nghiệm nào. (Không thể tăng cường ý nghĩa đã sửa nếu bạn không sửa!) . Những tính toán này cho thấy 13.000 bài báo được sử dụng không có nhiều hiệu chỉnh thử nghiệm. Tất nhiên một số trong số này có thể đang sử dụng các phân tích sở thích hoặc phân tích phụ, nhưng đó là một số ít (ví dụ kết quả thử nghiệm lâm sàng) hoàn toàn không có bội số. Bài viết của chúng tôi không trực tiếp về nhóm này, nhưng đối với các ấn phẩm sử dụng hiệu chỉnh nhiều thử nghiệm dân gian, P <0,001 & k> 10, bài báo của chúng tôi cho thấy phương pháp này có tỷ lệ lỗi gia đình vượt quá 50%.

Vì vậy, có phải chúng ta đang nói 3.500 giấy tờ là sai Sai? Nó phụ thuộc. Kết quả của chúng tôi cho thấy kết quả CDT P = 0,01 có giá trị P tăng cao, nhưng mỗi nghiên cứu phải được kiểm tra nếu hiệu ứng thực sự mạnh, có thể không có vấn đề gì nếu giá trị P bị sai lệch và suy luận khoa học sẽ không thay đổi. Nhưng nếu hiệu ứng thực sự yếu, thì kết quả thực sự có thể phù hợp với tiếng ồn . Và, những gì về 13.000 bài báo mà không có sự điều chỉnh, đặc biệt phổ biến trong các tài liệu trước đó? Không, chúng cũng không nên bị loại bỏ khỏi tầm tay, nhưng một con mắt đặc biệt cần thiết cho những tác phẩm đó, đặc biệt là khi so sánh chúng với các tài liệu tham khảo mới với các tiêu chuẩn phương pháp cải tiến.

Ông cũng bao gồm bảng này ở cuối:

        AFNI     BV    FSL    SPM   OTHERS
        ____     __    ___    ___   ______

>.01      9       5     9       8    4     
.01       9       4    44      20    3     
.005     24       6     1      48    3     
.001     13      20    11     206    5     
<.001     2       5     3      16    2    

Về cơ bản, SPM (Ánh xạ tham số thống kê, một hộp công cụ cho Matlab) là công cụ được sử dụng rộng rãi nhất cho các nghiên cứu khoa học thần kinh fMRI. Nếu bạn kiểm tra giấy bạn sẽ thấy bằng cách sử dụng CDT P = 0,001 (tiêu chuẩn) cho các cụm trong SPM sẽ cho tỷ lệ lỗi gia đình gần như mong đợi.

Các tác giả thậm chí đã lấp đầy một lỗi do từ ngữ của bài báo:

Do sự giải thích sai lầm trên diện rộng của bài báo của chúng tôi, Eklund và cộng sự, Thất bại cụm: Tại sao các suy luận của fMRI về phạm vi không gian đã làm tăng tỷ lệ dương tính giả, chúng tôi đã nộp đơn sai cho Văn phòng Biên tập PNAS:

Errata cho Eklund và cộng sự, Thất bại cụm: Tại sao suy luận của fMRI về phạm vi không gian đã làm tăng tỷ lệ dương tính giả. Eklund, Anders; Nô-ê, Thomas E; Knutsson, Hans

Hai câu được diễn đạt kém và có thể dễ dàng bị hiểu nhầm là phóng đại kết quả của chúng tôi.

Câu cuối cùng của tuyên bố Ý nghĩa nên đọc: Những kết quả này đặt câu hỏi về tính hợp lệ của một số nghiên cứu fMRI và có thể có tác động lớn đến việc giải thích các kết quả hình ảnh thần kinh yếu.

Câu đầu tiên sau tiêu đề, Tương lai của fMRI nên đọc: Từ Do các hoạt động lưu trữ và chia sẻ dữ liệu đáng tiếc, không chắc các phân tích có vấn đề có thể được làm lại.

Những câu này thay thế hai câu sai ngụ ý rằng tác phẩm của chúng tôi đã ảnh hưởng đến tất cả 40.000 ấn phẩm (xem Tài liệu tham khảo cụm suy luận để biết rõ về mức độ ảnh hưởng của tài liệu).

Sau khi ban đầu từ chối các lỗi, với lý do đó là sửa lỗi giải thích và không thực tế, PNAS đã đồng ý xuất bản nó khi chúng tôi gửi nó ở trên.


Trên cái gọi là Bug

Một số tin tức cũng đề cập đến một lỗi là nguyên nhân của sự vô hiệu của các nghiên cứu. Thật vậy, một trong những công cụ AFNI đã trải qua những suy luận và điều này đã được giải quyết sau khi bản in được đăng trên arXiv .


Suy luận thống kê được sử dụng trong thần kinh chức năng

5%

Sử dụng mô hình tuyến tính tổng quát (GLM), bạn xác định chuỗi thời gian tín hiệu voxel nào tương quan với thiết kế mô hình thí nghiệm của bạn (thường là thời gian boolean kết hợp với chức năng phản ứng huyết động chính tắc, nhưng tồn tại các biến thể).

Vì vậy, GLM này cung cấp cho bạn mỗi chuỗi thời gian của voxel giống với nhiệm vụ. Bây giờ, giả sử bạn có hai nhóm cá nhân: bệnh nhân và kiểm soát thường. So sánh điểm GLM giữa các nhóm có thể được sử dụng để cho thấy tình trạng của các nhóm điều chỉnh mô hình "kích hoạt" não của họ như thế nào.

Việc so sánh khôn ngoan giữa các nhóm là có thể thực hiện được, nhưng do chức năng phân tán điểm vốn có của thiết bị cộng với bước tiền xử lý trơn tru, không hợp lý khi mong đợi các voxels mang theo tất cả thông tin. Trên thực tế, sự khác biệt về các voxels giữa các nhóm nên được lan truyền trên các voxels lân cận.

Vì vậy, so sánh cụm khôn ngoan được thực hiện, tức là chỉ có sự khác biệt giữa các nhóm hình thành cụm. Đây ngưỡng cụm mức độ là kỹ thuật chỉnh so sánh nhiều phổ biến nhất trong các nghiên cứu fMRI. Vấn đề nằm ở đây.

SPM và FSL phụ thuộc vào lý thuyết trường ngẫu nhiên Gaussian (RFT) cho voxelwise được điều chỉnh theo Fwe và suy luận theo cụm. Tuy nhiên, suy luận theo cụm RFT phụ thuộc vào hai giả định bổ sung. Giả định đầu tiên là độ mịn của không gian của tín hiệu fMRI không đổi trên não và giả định thứ hai là chức năng tự tương quan không gian có hình dạng cụ thể (hàm mũ bình phương) (30)

Trong SPM ít nhất bạn phải đặt tỷ lệ Fwe danh nghĩa và cũng là ngưỡng xác định cụm (CDT). Về cơ bản, SPM tìm thấy các voxels có mối tương quan cao với nhiệm vụ và, sau khi đập với CDT, các vox lân cận được tổng hợp thành các cụm. Các kích thước cụm này được so sánh với phạm vi cụm dự kiến ​​từ Lý thuyết trường ngẫu nhiên (RFT) được đặt cho bộ FWER [ 1 ].

Lý thuyết trường ngẫu nhiên đòi hỏi bản đồ hoạt động phải trơn tru, để trở thành một xấp xỉ mạng tốt cho các trường ngẫu nhiên. Điều này có liên quan đến số lượng làm mịn được áp dụng cho khối lượng. Việc làm mịn cũng ảnh hưởng đến giả định rằng phần dư được phân phối bình thường, vì làm mịn, theo định lý giới hạn trung tâm, sẽ làm cho dữ liệu Gaussian nhiều hơn.

Các tác giả đã chỉ ra trong [ 1 ] rằng kích thước cụm dự kiến ​​từ RFT thực sự nhỏ khi so sánh với ngưỡng phạm vi cụm thu được từ thử nghiệm hoán vị ngẫu nhiên (RPT).

α=0.05


@amoeba đưa ra hai câu hỏi rất thích hợp trong các ý kiến:

(1) Eklund và cộng sự. Bài báo PNAS nói về "mức 5% danh nghĩa" của tất cả các bài kiểm tra (xem ví dụ: đường màu đen nằm ngang trên Hình 1). Tuy nhiên, CDT trong cùng một con số là khác nhau và có thể là 0,01 và 0,001. Làm thế nào để ngưỡng CDT liên quan đến tỷ lệ lỗi loại I danh nghĩa? Tôi bối rối vì điều đó. (2) Bạn đã xem câu trả lời của Karl Friston http://arxiv.org/abs/1606.08199 chưa? Tôi đọc nó, nhưng tôi không chắc họ đang nói gì: tôi có thấy chính xác rằng họ đồng ý với Eklund et al. nhưng nói rằng đây là một vấn đề "nổi tiếng"?

(1) Câu hỏi hay. Tôi thực sự đã xem xét các tài liệu tham khảo của mình, hãy xem liệu bây giờ tôi có thể làm cho nó rõ ràng hơn không. Suy luận theo cụm dựa trên phạm vi của các cụm hình thành sau một ngưỡng chính ( CDT, tùy ý ) được áp dụng. Trong phân tích thứ cấp, một ngưỡng về số lượng voxels trên mỗi cụm được áp dụng. Ngưỡng này dựa trên phân phối dự kiến ​​của các mức độ cụm rỗng, có thể được ước tính từ lý thuyết (ví dụ RFT) và đặt FWER danh nghĩa. Một tài liệu tham khảo tốt là [ 2 ].

(2) Cảm ơn bạn đã tham khảo, không thấy nó trước đây. Flandin & Friston tranh luận Eklund et al. suy luận RFT chứng thực vì về cơ bản họ cho thấy rằng tôn trọng các giả định của nó (liên quan đến CDT và làm mịn) các kết quả là không thiên vị. Dưới ánh sáng này, các kết quả mới cho thấy các thực tiễn khác nhau trong tài liệu có xu hướng thiên vị suy luận khi nó phá vỡ các giả định của RFT.


Trên nhiều so sánh

Nó cũng được biết đến nhiều nghiên cứu về khoa học thần kinh không chính xác cho nhiều so sánh, ước tính từ 10% đến 40% của tài liệu. Nhưng những điều này không được tính bởi yêu cầu đó, mọi người đều biết những giấy tờ này có hiệu lực mong manh và có thể có tỷ lệ dương tính giả rất lớn.


Trên FWER vượt quá 70%

Các tác giả cũng báo cáo một quy trình tạo ra FWER vượt quá 70%. Công cụ "dân gian" này bao gồm việc áp dụng CDT để chỉ giữ các cụm có ý nghĩa cao và sau đó áp dụng một ngưỡng phạm vi cụm được chọn tùy ý (theo số lượng voxels). Điều này, đôi khi được gọi là "suy luận tập hợp", có cơ sở thống kê yếu và có thể tạo ra kết quả kém tin cậy nhất.


Báo cáo trước

Các tác giả tương tự đã báo cáo về các vấn đề với tính hợp lệ của SPM [ 1 ] trên các phân tích riêng lẻ. Ngoài ra còn có các tác phẩm được trích dẫn khác trong lĩnh vực này.

Thật kỳ lạ, một số báo cáo về phân tích cấp độ nhóm và cá nhân dựa trên dữ liệu mô phỏng đã kết luận ngưỡng RFT trên thực tế là bảo thủ. Với những tiến bộ gần đây về sức mạnh xử lý mặc dù RPT có thể được thực hiện dễ dàng hơn nhiều trên dữ liệu thực, cho thấy sự khác biệt lớn với RFT.


CẬP NHẬT: ngày 18 tháng 10 năm 2017

Một bài bình luận về "Thất bại cụm" đã xuất hiện vào tháng 6 năm ngoái [ 3 ]. Có Mueller et al. lập luận rằng các kết quả được trình bày trong Eklund et al có thể là do một kỹ thuật tiền xử lý hình ảnh cụ thể được sử dụng trong nghiên cứu của họ. Về cơ bản, họ đã ghép lại các hình ảnh chức năng lên độ phân giải cao hơn trước khi làm mịn (trong khi có lẽ mọi nhà nghiên cứu không thực hiện, đây là một quy trình thường quy trong hầu hết các phần mềm phân tích fMRI). Họ cũng lưu ý rằng Flandin & Friston thì không. Tôi thực sự đã được thấy Eklund nói chuyện cùng tháng trong Hội nghị thường niên của Tổ chức Bản đồ não người (OHBM) ở Vancouver, nhưng tôi không nhớ bất kỳ bình luận nào về vấn đề này, nhưng nó có vẻ rất quan trọng đối với câu hỏi.


[1] Eklund, A., Andersson, M., Josephson, C., Johannesson, M., & Knutsson, H. (2012). Phân tích fMRI tham số với SPM có mang lại kết quả hợp lệ không? Nghiên cứu thực nghiệm về 1484 bộ dữ liệu còn lại. Thần kinh, 61 (3), 565-578.

[2] Woo, CW, Krishnan, A., & Đánh cuộc, TD (2014). Ngưỡng dựa trên phạm vi cụm trong phân tích fMRI: cạm bẫy và khuyến nghị. Thần kinh, 91, 412-419.

[3] Mueller, K., Lepsien, J., Möller, HE, & Lohmann, G. (2017). Bình luận: Thất bại cụm: Tại sao suy luận fMRI cho phạm vi không gian có tỷ lệ dương tính giả tăng cao. Biên giới trong khoa học thần kinh của con người, 11.


1
@Qroid Có cho phần đầu tiên, giả định không giữ được (và đó có lẽ là nguyên nhân cho hiệu suất tốt của thử nghiệm hoán vị không tham số). Các cụm là các cụm voxels, tức là các voxels lân cận cho thấy hiệu quả tương tự. Có một giá trị p để xác định một cụm (ngưỡng xác định cụm).
Firebug

7
Câu trả lời này chủ yếu tập trung vào việc đó là 40000 hay một số khác, nhưng tôi nghĩ sẽ thú vị hơn với nhiều người ở đây nếu bạn có thể tóm tắt cuộc tranh luận chính (các cụm là gì? Vấn đề với tương quan không gian để kiểm tra giả thuyết? thực sự nghĩ về điều này trước đây? v.v.)
amip nói rằng Phục hồi lại

1
Cảm ơn một lần nữa. Sau khi nhìn thoáng qua Woo et al. 2014, bây giờ tôi chắc chắn nữa tại sao Eklund et al. đã đưa nó vào PNAS và do đó đã tạo ra một cơn bão như vậy trên báo chí phổ biến và trên các blog. Không phải Woo và cộng sự. nói nhiều hay ít điều tương tự? Đây là, ngay trong blob "nổi bật" của họ: "Một cạm bẫy khác là tăng tích cực sai khi sử dụng ngưỡng chính tự do".
amip nói Phục hồi lại

1
Tôi hiểu rồi. Vì vậy, sự hiểu biết của tôi là về mặt khoa học không có gì thực sự xảy ra bây giờ: vấn đề với CDT tự do đã được biết đến trong nhiều năm, được thảo luận trong nhiều bài báo, và được các nhà nghiên cứu khác nhau đưa ra trong các mô phỏng khác nhau. (Nhưng tuy nhiên, một số nhà nghiên cứu vẫn tiếp tục sử dụng các CDT tự do nguy hiểm như vậy.) Eklund et al. Năm 2016 đã may mắn được xuất bản trong một tạp chí "hồ sơ cao" và boo! - mọi người bây giờ đang nói về nó như thể đó là một sự mặc khải.
amip nói rằng Phục hồi lại

7
@amoeba Cộng đồng khoa học thần kinh cần một cuộc đàn áp thống kê, giống như những gì đã xảy ra trong tâm lý học ứng dụng (có lẽ không quá quyết liệt như cấm các giá trị p). Nhiều bài báo khẳng định ý nghĩa thống kê không có sự chặt chẽ về thống kê, mọi người sử dụng các công cụ và các tham số làm cho "kết quả xuất hiện".
Firebug
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.