Bạn không thể có một quy tắc dừng mà không có một số ý tưởng về phân phối và kích thước hiệu ứng của bạn - mà bạn không biết một tiên nghiệm.
Ngoài ra, chúng ta cần tập trung vào kích thước hiệu ứng - và chưa bao giờ được coi là chính xác khi chỉ xem xét các giá trị p và chúng ta chắc chắn không nên hiển thị các bảng hoặc biểu đồ hiển thị giá trị p hoặc giá trị F thay vì kích thước hiệu ứng.
Có những vấn đề với Thử nghiệm suy luận thống kê truyền thống (mà Cohen nói là xứng đáng với từ viết tắt của nó, và cả Fisher và Pearson đều sẽ lật lại trong các ngôi mộ nếu họ thấy tất cả những gì đang được thực hiện trong những cái tên đối nghịch dữ dội của họ ngày hôm nay).
Để xác định N, bạn cần xác định mức ý nghĩa và ngưỡng sức mạnh mục tiêu, cũng như đưa ra nhiều giả định về phân phối, và đặc biệt bạn cũng cần xác định kích thước hiệu ứng mà bạn muốn thiết lập. Việc nói xấu là hoàn toàn chính xác rằng đây phải là điểm khởi đầu - kích thước hiệu ứng tối thiểu nào sẽ có hiệu quả về chi phí!
"Số liệu thống kê mới" đang ủng hộ cho thấy kích thước hiệu ứng (như sự khác biệt được ghép nối khi thích hợp), cùng với độ lệch hoặc phương sai tiêu chuẩn liên quan (vì chúng ta cần hiểu phân phối) và độ lệch chuẩn hoặc khoảng tin cậy (nhưng đã có độ lệch chuẩn khóa trong giá trị p và quyết định về việc bạn dự đoán hướng hay đặt cược từng cách). Nhưng thiết lập hiệu ứng tối thiểu của dấu hiệu được chỉ định bằng dự đoán khoa học, làm rõ điều này - mặc dù mặc định tiền khoa học là để thử và sai và chỉ tìm kiếm sự khác biệt. Nhưng một lần nữa bạn đã đưa ra các giả định về tính quy tắc nếu bạn đi theo cách này.
Một cách tiếp cận khác là sử dụng các ô vuông như một cách tiếp cận không tham số, nhưng các quy ước về râu ria và ngoại lệ rất khác nhau và thậm chí sau đó chúng bắt nguồn từ các giả định phân phối.
Vấn đề dừng thực sự không phải là vấn đề của một nhà nghiên cứu cá nhân hay không đặt N, mà là chúng ta có cả một cộng đồng gồm hàng ngàn nhà nghiên cứu, trong đó 1000 nhiều hơn 1 / alpha cho mức 0,05 truyền thống. Câu trả lời hiện được đề xuất là cung cấp số liệu thống kê tóm tắt (trung bình, stddev, stderr - hoặc "phiên bản không tham số - trung bình, v.v. như với boxplot) để tạo điều kiện cho phân tích tổng hợp và đưa ra kết quả tổng hợp từ tất cả các thử nghiệm cho dù chúng có xảy ra hay không có đạt được mức độ alpha cụ thể hay không.
Liên quan chặt chẽ là vấn đề kiểm tra nhiều vấn đề, cũng khó khăn và trong đó các thí nghiệm được giữ quá mức trong tên của bảo toàn năng lượng, trong khi các phương pháp overcomplex được đề xuất để phân tích kết quả.
Tôi không nghĩ có thể có một chương sách giáo khoa xử lý vấn đề này một cách dứt khoát, vì chúng ta vẫn không biết mình đang làm gì ...
Hiện tại, cách tiếp cận tốt nhất có lẽ là tiếp tục sử dụng số liệu thống kê truyền thống phù hợp nhất với vấn đề, kết hợp với hiển thị số liệu thống kê tóm tắt - hiệu ứng và lỗi tiêu chuẩn và N là quan trọng nhất. Việc sử dụng các khoảng tin cậy về cơ bản tương đương với thử nghiệm T tương ứng, nhưng cho phép so sánh các kết quả mới với các kết quả được công bố một cách có ý nghĩa hơn, cũng như cho phép một ethos khuyến khích khả năng tái tạo và xuất bản các thí nghiệm được sao chép và phân tích tổng hợp.
Về phương pháp Thông tin lý thuyết hoặc Bayes, họ sử dụng các công cụ khác nhau và đưa ra các giả định khác nhau, nhưng vẫn không có tất cả các câu trả lời, và cuối cùng phải đối mặt với cùng một vấn đề, hoặc tồi tệ hơn vì suy luận Bayes lùi lại khỏi việc đưa ra một quyết định dứt khoát trả lời và chỉ thêm bằng chứng tương đối giả hoặc vắng mặt linh mục.
Cuối cùng, Machine Learning cũng có những kết quả cần xem xét về tầm quan trọng - thường là với các TCTD hoặc T-Test, thường là với các biểu đồ, hy vọng ghép nối thay vì chỉ so sánh và sử dụng các phiên bản được bù phù hợp khi các bản phân phối không khớp. Nó cũng có những tranh cãi về bootstrapping và xác nhận chéo, và sai lệch và phương sai. Tệ nhất là, nó có xu hướng tạo và kiểm tra vô số các mô hình thay thế chỉ bằng cách tham số hóa triệt để tất cả các thuật toán trong một trong nhiều hộp công cụ, được áp dụng cho các bộ dữ liệu được lưu trữ một cách chu đáo để cho phép kiểm tra nhiều lần. Tệ nhất vẫn là trong thời kỳ đen tối sử dụng độ chính xác, hoặc tệ hơn vẫn là thước đo F, để đánh giá - chứ không phải là phương pháp chính xác.
Tôi đã đọc hàng tá bài báo về các vấn đề này, nhưng không tìm thấy điều gì hoàn toàn thuyết phục - ngoại trừ các khảo sát tiêu cực hoặc các bài phân tích tổng hợp dường như chỉ ra rằng hầu hết các nhà nghiên cứu không xử lý và giải thích các số liệu thống kê phù hợp với bất kỳ "tiêu chuẩn nào" ", Cũ hay mới. Sức mạnh, nhiều thử nghiệm, kích thước và dừng sớm, giải thích các lỗi tiêu chuẩn và khoảng tin cậy, ... đây chỉ là một số vấn đề.
Hãy bắn tôi xuống - Tôi muốn được chứng minh là sai! Theo quan điểm của tôi, có rất nhiều nước tắm, nhưng chúng tôi chưa tìm thấy em bé! Ở giai đoạn này, không có quan điểm cực đoan hay cách tiếp cận thương hiệu nào có vẻ hứa hẹn là câu trả lời, và những người muốn loại bỏ mọi thứ khác có lẽ đã mất đứa bé.