Tôi sẽ xem xét cả hai điểm của Matloff:
Với các mẫu lớn, các thử nghiệm quan trọng nảy ra trên các khởi hành nhỏ, không quan trọng từ giả thuyết null.
Logic ở đây là nếu ai đó báo cáo có ý nghĩa cao , thì chỉ từ con số này, chúng ta không thể nói nếu hiệu ứng là lớn và quan trọng hay nhỏ không liên quan (như có thể xảy ra với lớn ). Tôi thấy lập luận này lạ và không thể kết nối với nó, bởi vì tôi chưa bao giờ thấy một nghiên cứu nào báo cáo giá trị mà không báo cáo kích thước hiệu ứng [tương đương]. Các nghiên cứu mà tôi đọc sẽ ví dụ nói (và thường hiển thị trên một hình) rằng nhóm A có nghĩa như vậy và nhóm B có nghĩa như vậy và có nghĩa như vậy và chúng khác biệt đáng kể với giá trị như vậy . Tôi rõ ràng có thể tự đánh giá nếu sự khác biệt giữa A và B lớn hay nhỏ.n p pp = 0,0001npp
(Trong các bình luận, @RobinEkman đã chỉ cho tôi một số nghiên cứu được trích dẫn bởi Ziliak & McCloskey ( 1996 , 2004 ), người đã quan sát thấy rằng phần lớn các bài báo kinh tế thổi phồng "ý nghĩa thống kê" của một số hiệu ứng mà không chú ý đến kích thước hiệu ứng và "ý nghĩa thực tế" của nó (mà theo lập luận của Z & MS, thường có thể rất nhỏ). Đây rõ ràng là một thực tiễn tồi tệ.
Hầu như không có giả thuyết null nào là đúng trong thế giới thực, vì vậy thực hiện một bài kiểm tra quan trọng đối với chúng là vô lý và kỳ quái.
Mối quan tâm này cũng thường được lên tiếng, nhưng ở đây một lần nữa tôi không thể thực sự kết nối với nó. Điều quan trọng là phải nhận ra rằng các nhà nghiên cứu không tăng ad infinitum của họ . Trong ngành khoa học thần kinh mà tôi quen thuộc, mọi người sẽ làm thí nghiệm với hoặc có thể , giả sử, chuột. Nếu không có hiệu ứng để được nhìn thấy thì kết luận là hiệu ứng không đủ lớn để trở nên thú vị. Không ai biết tôi sẽ đi vào chăn nuôi, đào tạo, ghi âm, và hy sinh chuột để chứng minh rằng có là một số tác dụng ý nghĩa thống kê nhưng nhỏ xíu. Và trong khi có thể đúng là hầu như không có hiệu ứng thực sự chính xác bằng không, đó làn = 20 n = 50 n = 5000n n=20n=50n=5000 chắc chắn đúng rằng nhiều hiệu ứng thực sự đủ nhỏ để được phát hiện với kích thước mẫu hợp lý mà các nhà nghiên cứu hợp lý đang thực sự sử dụng, thực hiện phán đoán tốt của họ.
(Có một mối quan tâm hợp lệ là kích thước mẫu thường không đủ lớn và nhiều nghiên cứu bị thiếu năng lực. Vì vậy, có lẽ các nhà nghiên cứu trong nhiều lĩnh vực nên nhắm vào, giả sử, thay vì Tuy nhiên, dù kích thước mẫu là gì , nó đặt giới hạn về kích thước hiệu ứng mà nghiên cứu có sức mạnh để phát hiện.)n = 20n=100n=20
Ngoài ra, tôi không nghĩ rằng tôi đồng ý rằng hầu như không có giả thuyết null nào là đúng, ít nhất là không phải trong các nghiên cứu ngẫu nhiên thử nghiệm (trái ngược với các nghiên cứu quan sát). Hai lý do:
Rất thường có một định hướng cho dự đoán đang được thử nghiệm; nhà nghiên cứu nhằm mục đích chứng minh rằng một số hiệu ứng là tích cực . Theo quy ước, điều này thường được thực hiện với thử nghiệm hai mặt giả sử điểm null nhưng thực tế đây là thử nghiệm một phía cố gắng từ chối . (@ Câu trả lời CliffAB của, +1, làm cho một điểm có liên quan.) Và đây có thể chắc chắn là đúng.H 0 : δ = 0 H 0 : δ < 0δ>0H0:δ=0H0:δ<0
Ngay cả khi nói về điểm "nil" null , tôi không hiểu tại sao chúng không bao giờ đúng. Một số thứ chỉ không liên quan đến nhân quả với những thứ khác. Nhìn vào các nghiên cứu tâm lý học không thể lặp lại trong những năm qua: mọi người cảm thấy tương lai; Phụ nữ mặc quần áo màu đỏ khi rụng trứng; mồi với những từ liên quan đến tuổi già ảnh hưởng đến tốc độ đi bộ; v.v ... Rất có thể là không có mối liên hệ nhân quả nào ở đây cả và vì vậy các hiệu ứng thực sự chính xác bằng không.H0:δ=0
Chính mình, Norm Matloff đề nghị sử dụng khoảng tin cậy thay vì giá trị vì chúng cho thấy kích thước hiệu ứng. Khoảng tin cậy là tốt, nhưng lưu ý một nhược điểm của khoảng tin cậy so với giá trị : khoảng tin cậy được báo cáo cho một giá trị bảo hiểm cụ thể, ví dụ . Nhìn thấy khoảng tin cậy không cho tôi biết khoảng tin cậy sẽ rộng đến mức nào . Nhưng một giá trị duy nhất có thể được so sánh với bất kỳ và các độc giả khác nhau có thể có các bảng chữ cái khác nhau trong tâm trí.p 95 % 95 % 99 % p αpp95%95%99%pα
Nói cách khác, tôi nghĩ rằng đối với ai đó thích sử dụng khoảng tin cậy, giá trị là một thống kê bổ sung hữu ích và có ý nghĩa để báo cáo.p
Tôi muốn đưa ra một trích dẫn dài về tính hữu ích thực tế của giá trị từ blogger yêu thích của tôi Scott Alexander; ông không phải là một nhà thống kê (ông là một bác sĩ tâm thần) nhưng có nhiều kinh nghiệm với việc đọc các tài liệu tâm lý / y học và xem xét kỹ các số liệu thống kê trong đó. Trích dẫn từ bài đăng trên blog của anh ấy về nghiên cứu sô cô la giả mà tôi rất khuyến khích. Nhấn mạnh mỏ.p
[...] Nhưng giả sử chúng ta không được phép làm giá trị . Tất cả những gì tôi làm là nói với bạn "Vâng, có một nghiên cứu với mười lăm người đã tìm thấy sô cô la giúp kháng insulin" và bạn cười vào mặt tôi. Kích thước hiệu ứng được cho là để giúp với điều đó. Nhưng giả sử tôi nói với bạn "Có một nghiên cứu với mười lăm người đã tìm thấy sô cô la giúp kháng insulin. Kích thước hiệu quả là ." Tôi hoàn toàn không có trực giác cho dù điều đó có phù hợp với tiếng ồn ngẫu nhiên hay không. Phải không Được rồi, sau đó họ nói rằng chúng tôi phải báo cáo khoảng tin cậy. Kích thước hiệu ứng là , với khoảng tin cậy là0,6 0,6 95 % [ 0,2 , 1,0 ] p 95 % p 0,05p0.60.695%[0.2,1.0]. Được chứ. Vì vậy, tôi kiểm tra giới hạn dưới của khoảng tin cậy, tôi thấy nó khác 0. Nhưng bây giờ tôi không vượt quá giá trị . Tôi chỉ đang sử dụng giá trị p bằng cách tự mình thực hiện một phép tính kydgy - khoảng tin cậy không bao gồm zero, giống như giá trị nhỏ hơn .p95%p0.05
(Hãy tưởng tượng rằng, mặc dù tôi biết khoảng tin cậy không bao gồm 0, tôi bắt đầu tự hỏi liệu khoảng tin cậy có làm gì không. Nếu chỉ có một số thống kê sẽ cung cấp cho tôi thông tin này!)99 %95%99%
Nhưng liệu việc loại bỏ giá trị ngăn cản được không? Có thể, nhưng nó sẽ nhường chỗ cho những trò chơi hack d-hack. Bạn không nghĩ rằng bạn có thể kiểm tra hai mươi thông số trao đổi chất khác nhau và chỉ báo cáo một thông số có kích thước hiệu ứng cao nhất? Sự khác biệt duy nhất là p-hacking là hoàn toàn minh bạch - nếu bạn làm hai mươi kiểm tra và báo cáo một của , tôi biết bạn là một thằng ngốc - nhưng d-hack sẽ là bí hiểm. Nếu bạn thực hiện hai mươi bài kiểm tra và báo cáo rằng một trong số chúng có , điều đó có ấn tượng không? [...]p p 0,05 d = 0,6ppp0.05d=0.6
Nhưng việc chuyển đổi từ giá trị sang kích thước hiệu ứng sẽ khiến mọi người không thể tạo ra một vấn đề lớn về các hiệu ứng nhỏ mà vẫn có ý nghĩa thống kê? Có, nhưng đôi khi chúng tôi muốn tạo ra một vấn đề lớn về các hiệu ứng nhỏ mà vẫn có ý nghĩa thống kê! Giả sử rằng Coca-Cola đang thử nghiệm một chất phụ gia sản phẩm mới và tìm thấy trong các nghiên cứu dịch tễ học lớn rằng nó gây ra thêm một cái chết cho mỗi trăm nghìn người mỗi năm. Đó là kích thước hiệu ứng xấp xỉ bằng 0, nhưng nó vẫn có thể có ý nghĩa thống kê. Và vì khoảng một tỷ người trên toàn thế giới uống Coke mỗi năm, đó là một nghìn người chết. Nếu Coke nói, Nope, kích thước hiệu ứng quá nhỏ, không đáng để nghĩ về, thì họ sẽ giết chết gần hai triệu người Hitler.p
Đối với một số thảo luận thêm về các lựa chọn thay thế khác nhau cho giá trị (bao gồm cả giá trị Bayes), hãy xem câu trả lời của tôi trong ASA thảo luận về các hạn chế của giá trị - các lựa chọn thay thế là gì?ppp