Theo như thử nghiệm ý nghĩa (hoặc bất cứ điều gì khác về cơ bản giống như thử nghiệm ý nghĩa), từ lâu tôi đã nghĩ rằng cách tiếp cận tốt nhất trong hầu hết các tình huống có thể là ước tính kích thước hiệu ứng được tiêu chuẩn hóa, với khoảng tin cậy 95% về điều đó độ hiệu quả. Không có gì thực sự mới ở đó - về mặt toán học, bạn có thể xáo trộn qua lại giữa chúng - nếu giá trị p cho 'nil' null là <0,05, thì 0 sẽ nằm ngoài 95% CI và ngược lại. Lợi thế của điều này, theo tôi, là tâm lý; nghĩa là, nó làm cho thông tin nổi bật tồn tại nhưng mọi người không thể nhìn thấy khi chỉ báo cáo giá trị p. Ví dụ, thật dễ dàng để thấy rằng một hiệu ứng cực kỳ "đáng kể", nhưng nhỏ đến mức nực cười; hoặc 'không đáng kể', nhưng chỉ vì các thanh lỗi rất lớn trong khi hiệu quả ước tính ít nhiều là những gì bạn mong đợi. Chúng có thể được ghép nối với các giá trị thô và CI của chúng.
Bây giờ, trong nhiều lĩnh vực, các giá trị thô thực sự có ý nghĩa và tôi nhận ra rằng điều đó đặt ra câu hỏi liệu có còn giá trị để tính các biện pháp kích thước hiệu ứng cho rằng chúng ta đã có các giá trị như phương tiện và độ dốc hay không. Một ví dụ có thể là nhìn vào sự tăng trưởng thấp còi; chúng ta biết ý nghĩa của một người đàn ông 20 tuổi, da trắng ngắn hơn 6 +/- 2 inch (tức là 15 +/- 5 cm), so với những gì họ có thể, vậy tại sao lại đề cập đến ? Tôi có xu hướng nghĩ rằng vẫn có thể có giá trị trong báo cáo cả hai và các hàm có thể được viết để tính toán những thứ này để nó làm thêm rất ít, nhưng tôi nhận ra rằng ý kiến sẽ thay đổi. Ở mức độ nào, tôi lập luận rằng các ước tính điểm với khoảng tin cậy thay thế giá trị p là phần đầu tiên trong phản hồi của tôi. d=−1.6±.5
Mặt khác, tôi nghĩ một câu hỏi lớn hơn là 'có phải việc kiểm tra ý nghĩa thực hiện những gì chúng ta thực sự muốn?' Tôi nghĩ vấn đề thực sự là đối với hầu hết mọi người phân tích dữ liệu (nghĩa là các học viên không phải là thống kê), kiểm tra ý nghĩa có thể trở thành toàn bộ phân tích dữ liệu. Dường như với tôi, điều quan trọng nhất là có một cách nguyên tắc để suy nghĩ về những gì đang xảy ra với dữ liệu của chúng tôi và kiểm tra ý nghĩa giả thuyết null là, một phần rất nhỏ trong đó. Hãy để tôi đưa ra một ví dụ tưởng tượng (tôi thừa nhận rằng đây là tranh biếm họa, nhưng thật không may, tôi sợ nó có phần hợp lý):
Bob tiến hành một nghiên cứu, thu thập dữ liệu về thứ này hay thứ khác. Anh ta hy vọng dữ liệu sẽ được phân phối bình thường, phân cụm chặt chẽ xung quanh một số giá trị và dự định tiến hành thử nghiệm một mẫu để xem liệu dữ liệu của anh ta có 'khác biệt đáng kể' so với một số giá trị được chỉ định trước hay không. Sau khi thu thập mẫu của mình, anh ta kiểm tra xem dữ liệu của mình có được phân phối bình thường hay không và thấy rằng chúng không phải. Thay vào đó, chúng không có một khối rõ rệt ở trung tâm nhưng tương đối cao trong một khoảng thời gian nhất định và sau đó thoát ra với một cái đuôi dài bên trái. Bob lo lắng về những gì anh ta nên làm để đảm bảo rằng bài kiểm tra của mình là hợp lệ. Anh ta kết thúc việc làm một cái gì đó (ví dụ, một phép biến đổi, một phép thử không tham số, v.v.), và sau đó báo cáo một thống kê kiểm tra và giá trị p.
Tôi hy vọng điều này không xảy ra là khó chịu. Tôi không có ý chế giễu bất cứ ai, nhưng tôi nghĩ đôi khi điều này xảy ra. Nếu kịch bản này xảy ra, tất cả chúng ta có thể đồng ý rằng đó là phân tích dữ liệu kém. Tuy nhiên, vấn đề không phải là thống kê kiểm tra hoặc giá trị p là sai; chúng ta có thể khẳng định rằng dữ liệu đã được xử lý đúng theo khía cạnh đó. Tôi sẽ lập luận rằng vấn đề là Bob đang tham gia vào cái mà Cleveland gọi là "phân tích dữ liệu vẹt". Anh ta dường như tin rằng điểm duy nhất là có được giá trị p phù hợp và nghĩ rất ít về dữ liệu của mình ngoài việc theo đuổi mục tiêu đó. Anh ta thậm chí có thể đã chuyển sang đề xuất của tôi ở trên và báo cáo kích thước hiệu ứng được tiêu chuẩn hóa với khoảng tin cậy 95% và nó sẽ không thay đổi những gì tôi thấy là vấn đề lớn hơn (đây là điều tôi muốn nói "về cơ bản giống như vậy "Bằng một cách khác). Trong trường hợp cụ thể này, thực tế là dữ liệu không giống như anh ta mong đợi (nghĩa là không bình thường) là thông tin thực, thật thú vị, và rất có thể quan trọng, nhưng thông tin đó về cơ bản chỉ là vứt đi. Bob không nhận ra điều này, vì tập trung vào thử nghiệm quan trọng. Theo tôi, đó là vấn đề thực sự với việc kiểm tra ý nghĩa.
Hãy để tôi giải quyết một vài quan điểm khác đã được đề cập, và tôi muốn rất rõ ràng rằng tôi không chỉ trích bất cứ ai.
- Người ta thường đề cập rằng nhiều người không thực sự hiểu giá trị p (ví dụ, nghĩ rằng đó là xác suất null là đúng), v.v. Đôi khi người ta lập luận rằng, nếu chỉ có người sử dụng phương pháp Bayes, những vấn đề này sẽ biến đi. Tôi tin rằng mọi người có thể tiếp cận phân tích dữ liệu Bayes theo cách hoàn toàn không khoa học và máy móc. Tuy nhiên, tôi nghĩ rằng việc hiểu sai ý nghĩa của giá trị p sẽ ít gây hại hơn nếu không ai nghĩ nhận được giá trị p là mục tiêu.
- Sự tồn tại của 'dữ liệu lớn' thường không liên quan đến vấn đề này. Dữ liệu lớn chỉ rõ ràng rằng việc tổ chức phân tích dữ liệu xung quanh 'tầm quan trọng' không phải là một cách tiếp cận hữu ích.
- Tôi không tin vấn đề là với giả thuyết đang được thử nghiệm. Nếu mọi người chỉ muốn xem liệu giá trị ước tính nằm ngoài một khoảng, chứ không phải nếu nó bằng một giá trị điểm, nhiều vấn đề tương tự có thể phát sinh. (Một lần nữa, tôi muốn làm rõ Tôi biết bạn không phải là 'Bob' .)
- Đối với hồ sơ, tôi muốn đề cập rằng đề xuất của riêng tôi từ đoạn đầu tiên, không giải quyết vấn đề, như tôi đã cố gắng chỉ ra.
Đối với tôi, đây là vấn đề cốt lõi: Những gì chúng ta thực sự muốn là một cách nguyên tắc để suy nghĩ về những gì đã xảy ra . Điều đó có nghĩa là trong bất kỳ tình huống nhất định không được cắt và sấy khô. Làm thế nào để truyền đạt điều đó cho sinh viên trong một lớp phương pháp không rõ ràng cũng không dễ dàng. Kiểm tra ý nghĩa có rất nhiều quán tính và truyền thống đằng sau nó. Trong một lớp thống kê, rõ ràng những gì cần được dạy và làm thế nào. Đối với sinh viên và học viên, có thể phát triển một lược đồ khái niệm để hiểu tài liệu và một danh sách kiểm tra / sơ đồ (tôi đã thấy một số!) Để tiến hành phân tích. Kiểm tra ý nghĩa có thể tự nhiên phát triển thành phân tích dữ liệu vẹt mà không có ai bị câm hoặc lười biếng hoặc xấu. Đó là vấn đề.