Để đáp ứng với một nhóm các nhà thống kê và nhà nghiên cứu đang chỉ trích rằng tiện ích của kiểm tra giả thuyết null (NHT) đối với khoa học là một nỗ lực tích lũy, Lực lượng đặc nhiệm của Hiệp hội Tâm lý học Hoa Kỳ đã tránh một lệnh cấm hoàn toàn đối với NHT, nhưng thay vào đó, các nhà nghiên cứu cho rằng báo cáo kích thước hiệu ứng ngoài giá trị p có nguồn gốc từ NHT.
Tuy nhiên, kích thước hiệu ứng không dễ dàng tích lũy qua các nghiên cứu. Các phương pháp phân tích tổng hợp có thể tích lũy phân phối kích thước hiệu ứng, nhưng kích thước hiệu ứng thường được tính là tỷ lệ giữa cường độ hiệu ứng thô và "nhiễu" không giải thích được trong dữ liệu của một thử nghiệm nhất định, có nghĩa là phân phối kích thước hiệu ứng không chỉ bị ảnh hưởng bởi sự thay đổi về cường độ thô của hiệu ứng trong các nghiên cứu, nhưng cũng có thể thay đổi trong biểu hiện của tiếng ồn trong các nghiên cứu.
Ngược lại, một thước đo thay thế của cường độ hiệu ứng, tỷ lệ khả năng, cho phép cả hai diễn giải trực quan trên cơ sở nghiên cứu và có thể dễ dàng tổng hợp qua các nghiên cứu để phân tích tổng hợp. Trong mỗi nghiên cứu, khả năng đại diện cho trọng số bằng chứng cho một mô hình có chứa hiệu ứng nhất định so với mô hình không chứa hiệu ứng đó và thường được báo cáo là, ví dụ: "Tính toán tỷ lệ khả năng cho hiệu ứng của X tiết lộ gấp 8 lần bằng chứng về hiệu ứng so với null tương ứng ". Hơn nữa, tỷ lệ khả năng cũng cho phép biểu thị trực quan về sức mạnh của phát hiện null trong khi tỷ lệ khả năng dưới 1 đại diện cho các tình huống trong đó null được ưa chuộng và lấy giá trị đối ứng của giá trị này đại diện cho trọng số của bằng chứng về hiệu lực. Đáng chú ý là tỷ lệ khả năng được biểu diễn dưới dạng toán học là tỷ lệ phương sai không giải thích được của hai mô hình, chỉ khác nhau về phương sai được giải thích bởi hiệu ứng và do đó không phải là một sự khởi đầu khái niệm lớn từ kích thước hiệu ứng. Mặt khác, việc tính toán tỷ lệ khả năng phân tích tổng hợp, đại diện cho trọng lượng của bằng chứng cho một hiệu ứng trong các nghiên cứu, chỉ đơn giản là vấn đề lấy sản phẩm của tỷ lệ khả năng trong các nghiên cứu.
Vì vậy, tôi lập luận rằng đối với khoa học đang tìm cách thiết lập mức độ bằng chứng thô có lợi cho một hiệu ứng / mô hình, tỷ lệ khả năng là con đường để đi.
Có nhiều trường hợp sắc thái hơn khi các mô hình chỉ khác nhau về kích thước cụ thể của hiệu ứng, trong trường hợp đó, một số biểu diễn của khoảng mà chúng tôi tin rằng dữ liệu phù hợp với các giá trị tham số hiệu ứng có thể được ưu tiên. Thật vậy, lực lượng đặc nhiệm APA cũng khuyến nghị báo cáo khoảng tin cậy, có thể được sử dụng cho mục đích này, nhưng tôi nghi ngờ rằng đây cũng là một cách tiếp cận không cân nhắc.
Khoảng tin cậy thường được giải thích sai ( bởi các sinh viên và các nhà nghiên cứu như nhau ). Tôi cũng sợ rằng khả năng sử dụng NHT của họ (bằng cách đánh giá bao gồm số 0 trong CI) sẽ chỉ phục vụ để trì hoãn hơn nữa sự tuyệt chủng của NHT như là một thực tiễn suy luận.
Thay vào đó, khi các lý thuyết chỉ khác nhau theo kích thước của hiệu ứng, tôi đề nghị rằng phương pháp Bayes sẽ phù hợp hơn, trong đó phân phối trước của từng hiệu ứng được xác định riêng cho từng mô hình và phân phối hậu quả được so sánh.
Liệu phương pháp này, thay thế giá trị p, kích thước hiệu ứng và khoảng tin cậy bằng tỷ lệ khả năng và, nếu cần, so sánh mô hình Bayes, có vẻ đủ? Liệu nó có bỏ lỡ một số tính năng suy luận cần thiết mà các lựa chọn thay thế ở đây cung cấp không?