Từ quan điểm của tôi, vấn đề tập trung vào ý nghĩa thực sự của nó để thực hiện một bài kiểm tra quan trọng. Thử nghiệm quan trọng đã được nghĩ ra như một phương tiện để đưa ra quyết định từ chối giả thuyết khống hoặc không từ chối nó. Chính ông Fisher đã đưa ra quy tắc 0,05 khét tiếng để đưa ra quyết định (tùy tiện) đó.
Về cơ bản, logic của kiểm tra ý nghĩa là người dùng phải chỉ định cấp độ alpha để từ chối giả thuyết null (theo quy ước 0,05) trước khi thu thập dữ liệu . Sau khi hoàn thành bài kiểm tra quan trọng, người dùng từ chối null nếu giá trị p nhỏ hơn mức alpha (hoặc không từ chối nếu không).
Lý do tại sao bạn không thể tuyên bố một hiệu ứng có ý nghĩa cao (giả sử, ở mức 0,001) là vì bạn không thể tìm thấy bằng chứng mạnh mẽ hơn bạn đặt ra để tìm. Vì vậy, nếu bạn đặt mức alpha ở mức 0,05 trước khi kiểm tra, bạn chỉ có thể tìm thấy bằng chứng ở mức 0,05, bất kể giá trị p của bạn nhỏ đến mức nào. Theo cách tương tự, việc nói về các hiệu ứng "có ý nghĩa" hoặc "ý nghĩa tiếp cận" cũng không có ý nghĩa gì vì bạn đã chọn tiêu chí tùy ý này là 0,05. Nếu bạn diễn giải logic của kiểm tra ý nghĩa theo nghĩa đen, bất cứ điều gì lớn hơn 0,05 đều không đáng kể.
Tôi đồng ý rằng các thuật ngữ như "ý nghĩa tiếp cận" thường được sử dụng để tăng cường triển vọng xuất bản. Tuy nhiên, tôi không nghĩ rằng các tác giả có thể bị đổ lỗi vì điều đó bởi vì văn hóa xuất bản hiện tại trong một số ngành khoa học vẫn phụ thuộc rất nhiều vào "chén thánh" 0,05.
Một số vấn đề được thảo luận trong:
Gigerenzer, G. (2004). Thống kê vô tâm. Tạp chí kinh tế xã hội, 33 (5), 587-606.
Royall, R. (1997). Bằng chứng thống kê: một mô hình khả năng (Tập 71). Báo chí CRC.