Một nghiên cứu có nghĩa là quá sức?


11

Một nghiên cứu có nghĩa là quá sức?

Ấn tượng của tôi là nó có nghĩa là kích thước mẫu của bạn lớn đến mức bạn có khả năng phát hiện kích thước hiệu ứng cực nhỏ. Các kích thước hiệu ứng này có lẽ nhỏ đến mức chúng có nhiều khả năng là kết quả của những sai lệch nhỏ trong quá trình lấy mẫu so với kết nối nguyên nhân (không nhất thiết là trực tiếp) giữa các biến.

Đây có phải là trực giác chính xác? Nếu vậy, tôi không thấy vấn đề lớn là gì, miễn là kết quả được diễn giải trong ánh sáng đó và bạn kiểm tra thủ công và xem kích thước hiệu ứng ước tính có đủ lớn để "có ý nghĩa" hay không.

Tui bỏ lỡ điều gì vậy? Có một khuyến nghị tốt hơn là phải làm gì trong kịch bản này?


Âm thanh chính xác như sự hiểu biết trực quan của tôi về thuật ngữ này.
Henrik

Câu trả lời:


11

Tôi nghĩ rằng giải thích của bạn là không chính xác.

Bạn nói "Các kích thước hiệu ứng này có lẽ rất nhỏ do nhiều khả năng xuất phát từ những sai lệch nhỏ trong quá trình lấy mẫu so với kết nối nguyên nhân (không nhất thiết trực tiếp) giữa các biến" dường như ngụ ý rằng giá trị P trong 'quá mức' nghiên cứu không giống với giá trị P từ nghiên cứu được cung cấp 'đúng'. Điều đó là sai. Trong cả hai trường hợp, giá trị P là xác suất thu được dữ liệu cực trị như những gì được quan sát, hoặc cực đoan hơn, nếu giả thuyết null là đúng.

Nếu bạn thích cách tiếp cận Neyman - Pearson, tỷ lệ sai số dương tính giả thu được từ nghiên cứu 'cung cấp năng lượng quá mức' giống như nghiên cứu được cung cấp 'đúng' nếu sử dụng cùng một giá trị alpha cho cả hai.

Sự khác biệt trong giải thích cần thiết là có một mối quan hệ khác nhau giữa ý nghĩa thống kê và ý nghĩa khoa học đối với các nghiên cứu quá sức. Trong thực tế, nghiên cứu quá sức sẽ đưa ra một xác suất lớn để có được tầm quan trọng mặc dù hiệu quả là, như bạn nói, rất nhỏ, và do đó có tầm quan trọng đáng ngờ.

Miễn là kết quả từ một nghiên cứu 'cung cấp năng lượng quá mức' được diễn giải một cách thích hợp (và khoảng tin cậy cho kích thước hiệu ứng giúp giải thích như vậy), không có vấn đề thống kê nào với nghiên cứu 'quá sức'. Trong ánh sáng đó, tiêu chí duy nhất mà một nghiên cứu thực sự có thể được cung cấp quá mức là các vấn đề phân bổ tài nguyên và đạo đức được nêu trong các câu trả lời khác.


Cảm ơn, điều này rất nhiều thông tin. Tôi hiểu rằng định nghĩa giá trị p không thay đổi. Chắc chắn từ quan điểm thống kê, tỷ lệ lỗi loại I không tăng.
Frank Barry

1
Theo định nghĩa, chúng tôi đang sửa tỷ lệ lỗi loại I trong khi đặt ngưỡng giá trị p. Tuy nhiên, có vẻ như sự khác biệt giữa ý nghĩa "thống kê" và "thực tế" là vấn đề ở đây. Khi kích thước mẫu có thể phát hiện sự khác biệt tốt hơn nhiều so với kích thước hiệu ứng mong đợi, sự khác biệt có sự khác biệt về mặt thống kê chính xác là không có ý nghĩa thực tế (và theo quan điểm của "người dùng cuối" thì đây thực sự là "dương tính giả" nó không phải là một thống kê). Tuy nhiên, như bạn nói điều này bắt đầu vượt ra ngoài phạm vi thống kê.
Frank Barry

1
tức là tôi nghĩ tôi đồng ý - "sự khác biệt trong diễn giải cần thiết là có một mối quan hệ khác nhau giữa ý nghĩa thống kê và ý nghĩa khoa học"
Frank Barry

4

Trong các thử nghiệm nghiên cứu y tế có thể là phi đạo đức nếu họ tuyển dụng quá nhiều bệnh nhân. Ví dụ, nếu mục tiêu là quyết định phương pháp điều trị nào tốt hơn thì việc điều trị cho bệnh nhân bằng phương pháp điều trị tồi tệ hơn sau khi nó được thiết lập là kém hơn về mặt đạo đức. Tất nhiên, việc tăng kích thước mẫu sẽ cho bạn ước tính chính xác hơn về kích thước hiệu ứng, nhưng bạn có thể phải dừng lại trước khi ảnh hưởng của các yếu tố như "sai lệch nhỏ trong quá trình lấy mẫu" xuất hiện.

Nó cũng có thể là phi đạo đức để chi tiền công của nghiên cứu được xác nhận đầy đủ.


1

Tất cả những gì bạn nói đều có ý nghĩa (mặc dù tôi không biết "vấn đề lớn" mà bạn đang đề cập đến) và tôi đặc biệt. như quan điểm của bạn về kích thước hiệu ứng trái ngược với ý nghĩa thống kê. Một xem xét khác là một số nghiên cứu yêu cầu phân bổ nguồn lực khan hiếm để có được sự tham gia của từng trường hợp, và vì vậy người ta sẽ không muốn lạm dụng nó.


Xin lỗi, "vấn đề lớn" là quá nhiều bình luận biên tập. Câu hỏi liệu đó có phải là một "thỏa thuận lớn hơn" mà tôi đưa ra hay không về cơ bản là một câu hỏi liệu có những cân nhắc bổ sung nào mà tôi có thể không biết gì không.
Frank Barry

0

Kinh nghiệm của tôi đến từ các thử nghiệm A / B trực tuyến, trong đó vấn đề thường là các nghiên cứu bị thiếu hoặc đo lường những điều sai. Nhưng đối với tôi, một nghiên cứu quá sức tạo ra khoảng tin cậy hẹp hơn so với các nghiên cứu so sánh, giá trị p thấp hơn và có thể có phương sai khác nhau. Tôi tưởng tượng điều này có thể làm cho việc so sánh các nghiên cứu tương tự khó khăn hơn. Ví dụ, nếu tôi lặp lại một nghiên cứu bị áp đảo bằng cách sử dụng sức mạnh phù hợp, giá trị p của tôi sẽ cao hơn ngay cả khi tôi sao chép chính xác hiệu ứng. Kích thước mẫu tăng thậm chí có thể thay đổi hoặc giới thiệu tính biến đổi nếu có các ngoại lệ có thể có cơ hội hiển thị cao hơn trong một mẫu lớn hơn.

Ngoài ra, mô phỏng của tôi cho thấy các hiệu ứng khác với những hiệu ứng bạn quan tâm có thể trở nên quan trọng với một mẫu lớn hơn. Vì vậy, mặc dù giá trị p cho bạn biết xác suất rằng kết quả của bạn là có thật, nhưng chúng có thể là thật vì những lý do khác với những gì bạn nghĩ, ví dụ như sự kết hợp của cơ hội, một số hiệu ứng nhất thời mà bạn không kiểm soát được và có lẽ một số khác hiệu ứng nhỏ hơn mà bạn giới thiệu mà không nhận ra nó. Nếu nghiên cứu chỉ là một chút áp đảo, nguy cơ này là thấp. Vấn đề thường là khó biết được sức mạnh đầy đủ, ví dụ, nếu các số liệu cơ bản và hiệu ứng mục tiêu tối thiểu là dự đoán hoặc hóa ra khác với dự kiến.

Tôi cũng đã bắt gặp một bài báo lập luận rằng một mẫu quá lớn có thể làm cho một bài kiểm tra mức độ phù hợp quá nhạy cảm với những sai lệch không đáng kể, dẫn đến kết quả phản cảm.

Điều đó nói rằng, tôi tin rằng tốt nhất là sai ở phía cao hơn là năng lượng thấp.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.