Tại sao mọi người không trao đổi mức ý nghĩa cho quyền lực?


7

Theo quy ước, chúng tôi có rất nhiều nghiên cứu có mức ý nghĩa là và sức mạnh là . Tuy nhiên, rất hiếm khi tìm thấy một nghiên cứu có với công suất 0,95 .0,050,8α= =0,20,95

Theo hiểu biết của tôi, sau khi một thí nghiệm được tiến hành, mức ý nghĩa hoàn toàn không thành vấn đề nếu kết quả là không đáng kể, bởi vì trong trường hợp này, chúng tôi đang xem xét liệu có hợp lý không khi chấp nhận null và tất cả chúng tôi quan tâm là sức mạnh. Tương tự, nếu kết quả là đáng kể, thì mức ý nghĩa sẽ trở thành bằng chứng của bạn, trong khi sức mạnh của bài kiểm tra tạo ra sự khác biệt hoàn toàn bằng không. (Bởi "không thành vấn đề", ý tôi là "không nhằm mục đích thử nghiệm này". Cả mức độ và sức mạnh quan trọng đều quan trọng đối với nghiên cứu meta, vì vậy vui lòng báo cáo cả trong ấn phẩm của bạn!)

Nếu tôi đúng, thì null và phương án thay thế ở một mức độ đối xứng nào đó: giả thuyết null không thực sự đòi hỏi phải bảo vệ nhiều hơn. Nếu bạn muốn chứng minh sự thay thế, hãy nói "loại thuốc mới này có tác dụng đối với bệnh nhân", sau đó sử dụng một công suất rất nhỏ và công suất cao vừa phải. Mặt khác, khi bạn muốn chứng minh null, ví dụ như trong một bài kiểm tra tính quy tắc, thì bạn nên chọn một nhỏ vừa phải và công suất rất cao, để bạn có thể tự tin chấp nhận null.αα

Tại sao các thí nghiệm với nhỏ vừa phải và công suất rất cao lại rất hiếm?α


3
Bởi vì quy ước văn hóa của được thiết lập mạnh mẽ? α= =0,05
Ben Bolker

2
Chúng tôi thấy 5% trên tất cả, nhưng không vì lý do tốt; trong nhiều tình huống, chúng ta chắc chắn nên xem xét mức độ ý nghĩa nhỏ hơn (và trong một số trường hợp, lớn hơn) - và trong nhiều tình huống có thể vẫn còn, hãy xem xét liệu một bài kiểm tra quan trọng có thực sự là công cụ phù hợp cho công việc hay không (nhưng thường thì không bạn có trong hộp công cụ của bạn là một cái búa ...). Fisher nói chung coi 5% như về cơ bản yếu nhất bằng chứng ông thậm chí còn muốn xem xét chú ý đến ( ông là một cầu khắt khe về nhân rộng thí nghiệm trên đó), nhưng đối với một số lý do đã kết thúc trở nên coi là một tiêu chuẩn.
Glen_b -Reinstate Monica

2
Tất cả những gì tôi có thể nói là nếu bạn có thể đọc một số điều mà Fisher đã viết về nó, bạn sẽ thấy tầm quan trọng của anh ấy khi xem bản sao là một phần của quy trình. Tôi không có tài liệu tham khảo nhưng hầu hết các giấy tờ của anh ấy (và nhận xét về các giấy tờ khác) đều được công khai. (Sách của anh ấy có thể là nguồn tốt hơn, nếu không được xem dễ dàng). Để làm ví dụ về tầm quan trọng của nó, hãy xem bài viết này ... trong đó nói (câu đầu tiên của đoạn 4 " Ba nguyên tắc thiết kế thử nghiệm cơ bản được gán cho Fisher là ngẫu nhiên, sao chép và chặn ".
Glen_b -Reinstate Monica

2
Bài viết đó tham khảo "Thiết kế thí nghiệm, 6ed" của Fisher. Tuy nhiên, điều đó chủ yếu thảo luận về việc sử dụng bản sao của người thí nghiệm (phục vụ một số mục đích quan trọng); ông cũng thấy sự sao chép của những người khác là quan trọng khi cố gắng đi đến sự thật khi đối mặt với sự không chắc chắn là tốt.
Glen_b -Reinstate Monica

1
Do nhiều thử nghiệm và tất cả các sai lệch khác không được tính đến, tỷ lệ phát hiện sai có xu hướng lớn hơn nhiều so với . Đồng thời, chi phí (và rủi ro) của một xu hướng dương tính giả sẽ tồi tệ hơn nhiều. Vì vậy, ở mức 0,2, trong thực tế, hơn 50% có thể là sai trong một thí nghiệm chi tiết hơn nhưng tốn kém hơn. Các phủ định sai thường không tốn nhiều chi phí, đặc biệt nếu bạn cho rằng ai đó sẽ độc lập kiểm tra lại giả thuyết tương tự ở giai đoạn sau. α
Có QUIT - Anony-Mousse

Câu trả lời:


5

Tại sao các thí nghiệm với nhỏ vừa phải và công suất rất cao lại rất hiếm?α

Đây chỉ là một chút tương đối, nhưng người ta chắc chắn có thể lập luận rằng mức ý nghĩa đã yếu và đã tạo thành sự hy sinh cho sức mạnh cao hơn (ví dụ, liên quan đến mức ý nghĩa hoặc các mức ý nghĩa thấp hơn khác ). Mặc dù ý kiến ​​về điều này sẽ khác nhau, nhưng quan điểm của riêng tôi là đây đã là một mức ý nghĩa rất yếu, do đó, việc lựa chọn nó hoàn toàn là một sự đánh đổi để có được sức mạnh cao hơn.α= =0,05α= =0,01

Theo hiểu biết của tôi, sau khi một thí nghiệm được tiến hành, mức ý nghĩa hoàn toàn không thành vấn đề nếu kết quả là không đáng kể, bởi vì trong trường hợp này, chúng tôi đang xem xét liệu có hợp lý không khi chấp nhận null và tất cả chúng tôi quan tâm là sức mạnh. Tương tự, nếu kết quả là đáng kể, thì mức ý nghĩa sẽ trở thành bằng chứng của bạn, trong khi sức mạnh của bài kiểm tra tạo ra sự khác biệt hoàn toàn bằng không.

Tôi có thể thấy lý do tại sao bạn có thể nghĩ điều này, nhưng nó không thực sự đúng. Trong thử nghiệm giả thuyết cổ điển có một sự tương tác khá phức tạp và tinh tế trong những điều này. Hãy nhớ rằng cả giá trị p và công suất đều liên quan đến xác suất dựa trên trạng thái thực của các giả thuyết (điều kiện giá trị p trên null và điều kiện công suất thay thế). Khi bạn nhận được kết quả từ dữ liệu, bạn sẽ suy luận về các giả thuyết, nhưng bạn vẫn không biết trạng thái thực sự của chúng. Do đó, không thực sự hợp pháp khi nói rằng bạn hoàn toàn có thể bỏ qua "nửa kia" của bài kiểm tra. Bất kể kết quả có ý nghĩa thống kê hay không, việc giải thích kết quả đó được thực hiện một cách toàn diện, liên quan đến tất cả các thuộc tính của xét nghiệm.

Cũng cần lưu ý rằng, đối với một mô hình và thử nghiệm cố định và kích thước mẫu cố định, hàm công suất là một hàm của mức ý nghĩa được chọn. Mức ý nghĩa được chọn xác định vùng loại bỏ, ảnh hưởng trực tiếp đến sức mạnh của thử nghiệm. Vì vậy, một lần nữa, có một mối quan hệ giữa những điều này và bạn không thể bỏ qua "một nửa" các thuộc tính của bài kiểm tra.


Tôi đồng ý rằng và có mối tương quan ngược chiều, nhưng khi bạn tiến hành thử nghiệm, thiết kế của nó phải được hoàn thiện, vì vậy tại thời điểm đó, và đã là các tham số cố định của thử nghiệm . Đối với một kết quả không có ý nghĩa, tôi khó có thể hiểu làm thế nào bạn có thể diễn giải nó theo nghĩa "xác suất của kết quả là có ý nghĩa khi null là đúng". Bạn đang xem xét thực tế rằng một lớn hơn bao hàm một lớn hơn ? α1-βα1-βαp
nalzok

Lớn hơn α không ngụ ý lớn hơn p. Cái sau là một chức năng của dữ liệu và không bị ảnh hưởng bởiα.
Ben - Tái lập Monica

Ý tôi là, điều kiện về kết quả là không đáng kể, chúng ta có pα, vì vậy một lớn hơn α loại bỏ khả năng nhỏ p. Đây là cách duy nhất tôi có thể hiểu tại saoαđóng một vai trò trong việc diễn giải một kết quả không đáng kể. Đó có phải là những gì bạn đang nghĩ về?
nalzok

Một cách thô bạo, nhưng ngay cả khi đó, hàm sức mạnh chỉ xem xét hành vi có điều kiện trên giả thuyết thay thế là đúng.
Ben - Tái lập Monica

4

Đây là một nhận xét mở rộng hơn là một câu trả lời. Một quan điểm thú vị có thể được tìm thấy trong bài đăng trên blog này , một trích dẫn ngắn:

... cho rằng từ [ý nghĩa] mang ít trọng lượng hơn vào cuối thế kỷ 19, khi nó chỉ có nghĩa là kết quả cho thấy, hoặc có ý nghĩa, một cái gì đó. Sau đó, vào thế kỷ 20, tầm quan trọng bắt đầu thu thập ý nghĩa mà nó mang theo ngày nay, không chỉ biểu thị một cái gì đó mà còn biểu thị một cái gì đó quan trọng. ...

Nếu điều này là chính xác thì Fisher có thể có ý nghĩa thay vì đáng ghi lại ( ghi chú tinh thần hoặc trong sổ ghi chép trong phòng thí nghiệm), xứng đáng để điều tra hoặc nhân rộng thêm.

Bài báo psyarxiv này đề xuất giảm mức ý nghĩa tiêu chuẩn (trong nghiên cứu tâm lý học) từ 0,05 xuống 0,005 là bằng chứng nữa cho thấy nhiều người thấy (đúng ...) rằng 0,05 đã là một yêu cầu khá yếu.



1

Bởi vì lỗi loại II được coi là ít xảy ra sự cố hơn lỗi loại I. Lỗi loại I có ý nghĩa lớn hơn cho nghiên cứu trong tương lai. Hơn nữa, hầu hết thời gian, các thí nghiệm với công suất cao đắt hơn nhiều.

Nhưng tất nhiên bạn cũng có thể đặt câu hỏi cho cả khung NHST và cách nó thường xuyên bị lạm dụng bởi các nhà nghiên cứu không biết ...

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.