Các nghiên cứu thiếu năng lực có làm tăng khả năng dương tính giả không?


23

Câu hỏi này đã được hỏi trước đâyđây nhưng tôi không nghĩ câu trả lời giải quyết câu hỏi trực tiếp.

Các nghiên cứu thiếu năng lực có làm tăng khả năng dương tính giả không? Một số bài báo đưa ra khẳng định này. Ví dụ :

Sức mạnh thống kê thấp là tin xấu. Các nghiên cứu thiếu năng lực có nhiều khả năng bỏ lỡ các hiệu ứng thực sự và vì một nhóm chúng có nhiều khả năng bao gồm tỷ lệ dương tính giả cao hơn - nghĩa là các hiệu ứng đạt được ý nghĩa thống kê mặc dù chúng không có thật.

Theo tôi hiểu, sức mạnh của một bài kiểm tra có thể được tăng lên bằng cách:

  • tăng cỡ mẫu
  • có kích thước hiệu ứng lớn hơn
  • tăng mức ý nghĩa

Giả sử chúng ta không muốn thay đổi mức ý nghĩa, tôi tin rằng trích dẫn ở trên đề cập đến việc thay đổi kích thước mẫu. Tuy nhiên, tôi không thấy việc giảm mẫu sẽ làm tăng số lượng dương tính giả như thế nào. Nói một cách đơn giản, việc giảm sức mạnh của một nghiên cứu làm tăng khả năng phủ định sai, đáp ứng cho câu hỏi:

P(không từ chối H0|H0 là sai)

Ngược lại, dương tính giả trả lời cho câu hỏi:

P(Từ chối H0|H0 là đúng)

Cả hai đều là những câu hỏi khác nhau vì các điều kiện khác nhau. Quyền lực là (ngược lại) liên quan đến tiêu cực sai nhưng không phải là dương tính giả. Tui bỏ lỡ điều gì vậy?


4
Đó không phải là tỷ lệ dương tính giả phụ thuộc vào sức mạnh thống kê, mà là "tỷ lệ phát hiện sai": P(H0là đúng|Từ chốiH0)
Jake Westfall

2
Vâng, đó dường như là cách giải thích chính xác của tuyên bố trong bài báo Wired.
Robert Smith

Câu trả lời:


30

Bạn đúng ở cỡ mẫu đó ảnh hưởng đến nguồn điện (tức là lỗi 1 - loại II), nhưng không phải lỗi loại I. Đó là một sự hiểu lầm phổ biến rằng giá trị p như vậy (được giải thích chính xác) ít đáng tin cậy hoặc hợp lệ khi kích thước mẫu nhỏ - bài viết rất thú vị của Friston 2012 có một điều thú vị về điều đó [1].

Điều đó đang được nói, các vấn đề với các nghiên cứu thiếu năng lực là có thật, và trích dẫn phần lớn là chính xác tôi sẽ nói, chỉ một chút thiếu chính xác trong cách diễn đạt của nó.

Vấn đề cơ bản với các nghiên cứu thiếu năng lực là, mặc dù tỷ lệ dương tính giả (lỗi loại I) trong các thử nghiệm giả thuyết là cố định, nhưng tỷ lệ dương tính thật (sức mạnh) giảm xuống. Do đó, kết quả dương tính (= đáng kể) ít có khả năng là dương tính thực sự trong một nghiên cứu thiếu năng lực. Ý tưởng này được thể hiện trong tỷ lệ phát hiện sai [2], xem thêm [3]. Điều này có vẻ như những gì trích dẫn đề cập đến.

Một vấn đề bổ sung thường được đặt tên liên quan đến các nghiên cứu thiếu năng lực là chúng dẫn đến kích thước hiệu ứng được đánh giá quá cao. Lý do là a) với công suất thấp hơn, ước tính của bạn về các hiệu ứng thực sự sẽ trở nên biến đổi hơn (ngẫu nhiên) xung quanh giá trị thực của chúng và b) chỉ những hiệu ứng mạnh nhất trong số đó sẽ vượt qua bộ lọc có ý nghĩa khi công suất thấp. Chúng ta nên thêm rằng đây là một vấn đề báo cáo có thể dễ dàng được khắc phục bằng cách thảo luận và báo cáo tất cả và không chỉ ảnh hưởng đáng kể.

Cuối cùng, một vấn đề thực tế quan trọng với các nghiên cứu thiếu năng lực là công suất thấp làm tăng các vấn đề thống kê (ví dụ sai lệch của người ước tính) cũng như sự cám dỗ khi chơi xung quanh với các biến và chiến thuật hack p tương tự. Sử dụng các "mức độ tự do của nhà nghiên cứu" này có hiệu quả nhất khi công suất thấp và điều này có thể làm tăng lỗi loại I sau tất cả, xem, ví dụ, [4].

Vì tất cả những lý do này, do đó tôi sẽ thực sự hoài nghi về một nghiên cứu thiếu năng lực.

[1] Friston, K. (2012) Mười quy tắc mỉa mai cho người đánh giá không thống kê. Thần kinh, 61, 1300-1310.

[2] https://en.wikipedia.org/wiki/False_discovery_rate

[3] Nút, KS; Ioannidis, JPA; Mokrysz, C.; Mũi, BA; Đá lửa, J.; Robinson, ESJ & Munafo, MR (2013) Mất điện: tại sao cỡ mẫu nhỏ làm giảm độ tin cậy của khoa học thần kinh. Nat. Mục sư Neurosci., 14, 365-376

[4] Simmons, JP; Nelson, LD & Simonsohn, U. (2011) Tâm lý học tích cực sai: Sự linh hoạt không được tiết lộ trong thu thập và phân tích dữ liệu cho phép trình bày bất cứ điều gì quan trọng. Khoa học thần kinh, 22, 1359-1366.


Cảm ơn bạn. Tài liệu tham khảo tuyệt vời. Để đầy đủ, [1] có thể được tìm thấy ở đây và [3] có sẵn ở đây . Khi bạn nói về tỷ lệ phát hiện sai, bạn có chắc đó là khái niệm đúng không? Dựa trên [3], có thể bạn có nghĩa là giá trị tiên đoán dương (PPV) trong đó các nghiên cứu thiếu năng lực có PPV thấp hơn (nghĩa là, dương tính thực sự không thường xuyên như trong một nghiên cứu được cung cấp năng lượng cao) Có vẻ như tỷ lệ phát hiện sai là phần bổ sung của PPV.
Robert Smith

Theo cách tôi hiểu, các khái niệm này giống hệt nhau, PPV = 1-FDR. Tôi thích sử dụng FDR hơn vì tôi thấy từ này trực quan dễ hiểu hơn.
Florian Hartig


2
Tal Yarkoni chỉ ra tất cả những điều sai về bài viết Friston ở đây .
jona

1
@jona - Tôi nghĩ Tal Yarkoni tăng một số điểm tốt trong bài đăng trên blog của mình. Tôi đoán tóm tắt 1 câu sẽ là "năng lượng thấp là một vấn đề", đó chính xác là những gì tôi nói ở trên. Tôi vẫn thấy những bình luận biếm họa của Friston là buồn cười, bởi vì điều đó xảy ra khi những người đánh giá "thấy cỡ mẫu quá thấp" mà không có một lập luận chung nào liên quan đến việc có sức mạnh tính toán.
Florian Hartig

6

Tùy thuộc vào cách bạn nhìn vào nó, công suất thấp có thể tăng tỷ lệ dương tính giả trong các tình huống nhất định.

Hãy xem xét những điều sau đây: một nhà nghiên cứu kiểm tra một điều trị. Nếu xét nghiệm trở lại là không đáng kể, họ từ bỏ nó và chuyển sang điều trị tiếp theo. Nếu thử nghiệm trở lại đáng kể, họ xuất bản nó. Chúng ta cũng hãy xem xét rằng nhà nghiên cứu sẽ kiểm tra một số phương pháp điều trị có hiệu quả và một số phương pháp không hiệu quả. Nếu nhà nghiên cứu có quyền lực cao (tất nhiên đề cập đến trường hợp khi họ đang thử nghiệm một phương pháp điều trị có hiệu quả), thì họ rất có khả năng dừng lại một khi họ thử nghiệm một phương pháp điều trị hiệu quả. Mặt khác, với công suất thấp, họ có khả năng bỏ lỡ hiệu quả điều trị thực sự và chuyển sang các phương pháp điều trị khác. Càng nhiều phương pháp điều trị null mà họ kiểm tra, càng có nhiều khả năng gây ra lỗi Loại I (nhà nghiên cứu này không tính đến nhiều so sánh). Trong trường hợp năng lượng thấp, họ dự kiến ​​sẽ thử nghiệm nhiều phương pháp điều trị null hơn,

Bạn có thể nói "tốt, đây chỉ là một nhà nghiên cứu lạm dụng nhiều so sánh!". Vâng, điều đó có thể đúng, nhưng đó cũng là cách mà rất nhiều nghiên cứu được thực hiện trong những ngày này. Vì chính xác những lý do này, cá nhân tôi có ít niềm tin vào công việc được công bố trừ khi nó có cỡ mẫu đủ lớn để nhà nghiên cứu không đủ khả năng lặp lại cùng một thí nghiệm nhiều lần.


1
Cảm ơn bạn. Ngay cả khi bỏ qua trường hợp so sánh nhiều lần (không có chỉnh sửa chính xác), tôi nghĩ bạn đang mô tả một trường hợp khác của PPV như được mô tả ở đây . Tôi không thể dán đoạn văn nhưng nó bắt đầu bằng ( For example, suppose that we work in a scientific field in which one in five of the effects we test are expected to be truly non-null)
Robert Smith

1
À đúng rồi, điều đó mô tả rất chặt chẽ những gì tôi đang đề cập đến. Điểm khác biệt nhỏ nhất là tôi đang nói "Trong một quy trình thử nghiệm nhất định , việc có công suất thấp riêng lẻ ở mỗi thử nghiệm về hiệu ứng thực sự làm tăng tỷ lệ sử dụng gây ra lỗi loại I trong toàn bộ quy trình thử nghiệm của chúng tôi ". Tất nhiên, điều này khác với việc tăng tỷ lệ lỗi loại I trong mỗi bài kiểm tra thống kê. Ngoài ra, nó chỉ là về kỹ thuật của các giác quan khác với PPV. Nhưng đó là cách duy nhất để tuyên bố truyền thông "công suất thấp làm tăng lỗi loại I" có ý nghĩa (và tôi nghĩ nó có ý nghĩa rất lớn).
Vách đá AB

4

Công suất thấp không thể ảnh hưởng đến tỷ lệ lỗi Loại 1, nhưng nó có thể ảnh hưởng đến tỷ lệ kết quả được công bố là lỗi loại 1.

Lý do là công suất thấp làm giảm cơ hội từ chối chính xác H0 (lỗi Loại 2) nhưng không có khả năng từ chối sai H0 (lỗi Loại 1).

Giả sử trong một giây rằng có hai văn học ... một được tiến hành với công suất rất thấp - gần bằng không - và thứ hai được thực hiện với công suất phù hợp. Trong cả hai tài liệu, bạn có thể giả sử rằng khi H0 sai, bạn vẫn sẽ nhận được kết quả dương tính giả trong một số thời gian (ví dụ: 5% cho alpha = 0,05). Giả sử các nhà nghiên cứu không phải lúc nào cũng đúng trong các giả thuyết của họ, chúng ta có thể giả sử cả hai văn học nên có một số lỗi Loại 1 tương tự, có sức mạnh tốt hay không. Điều này là do tỷ lệ lỗi Loại 1 không bị ảnh hưởng bởi sức mạnh, như những người khác đã nói.

Tuy nhiên, trong tài liệu có sức mạnh THẤP, bạn cũng sẽ có rất nhiều lỗi Loại 2. Nói cách khác, tài liệu năng lượng thấp nên LACK các từ chối chính xác của H0, làm cho các lỗi Loại 1 trở thành một tỷ lệ lớn hơn của tài liệu. Trong tài liệu công suất cao, bạn nên có một hỗn hợp từ chối chính xác và không chính xác của H0.

Vì vậy, công suất thấp có làm tăng lỗi Loại 1 không? Tuy nhiên, điều đó làm cho việc tìm kiếm các hiệu ứng thực sự trở nên khó khăn hơn, khiến các lỗi Loại 1 chiếm tỷ lệ lớn hơn trong các phát hiện được công bố.


1
Cảm ơn bạn. Còn PPV thì sao? Trong bài viết được tham chiếu bởi Florian Hartig, có một tuyên bố rằng đã đưa ra lỗi loại I, công suất càng thấp, PPV càng thấp. Nếu PPV thấp hơn, điều đó có nghĩa là số lượng khám phá được tuyên bố đúng là thấp hơn, thì số lượng khám phá được tuyên bố sai (dương tính giả) sẽ tăng lên.
Robert Smith

0

Ngoài câu trả lời khác, một nghiên cứu thường không đủ sức mạnh khi cỡ mẫu nhỏ. Có nhiều xét nghiệm chỉ có giá trị không có triệu chứng, và quá lạc quan hoặc bảo thủ cho n nhỏ.

Các thử nghiệm khác chỉ có giá trị đối với kích thước mẫu nhỏ nếu đáp ứng một số điều kiện nhất định, nhưng trở nên mạnh mẽ hơn với kích thước mẫu lớn (ví dụ: thử nghiệm t).

Trong cả hai trường hợp, cỡ mẫu nhỏ và giả định chưa được đáp ứng có thể dẫn đến tỷ lệ lỗi loại I tăng. Cả hai tình huống này xảy ra thường xuyên đủ để tôi coi câu trả lời thực sự cho câu hỏi của bạn là: không phải trên lý thuyết mà là trong thực tế.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.