Trong suy luận thường xuyên , chúng tôi muốn xác định mức độ thường xuyên xảy ra nếu một quá trình ngẫu nhiên nhất định được lặp đi lặp lại. Đó là điểm khởi đầu cho lý thuyết về giá trị p, khoảng tin cậy và tương tự. Tuy nhiên, trong nhiều dự án ứng dụng, quy trình "nhất định" không thực sự được đưa ra và nhà thống kê phải thực hiện ít nhất một số công việc chỉ định và mô hình hóa nó. Đây có thể là một vấn đề mơ hồ đáng ngạc nhiên, như trong trường hợp này.
Mô hình hóa quy trình tạo dữ liệu
Dựa trên thông tin được cung cấp, ứng cử viên tốt nhất của chúng tôi dường như là như sau:
- Nếu đồng hồ 100V đọc 100V, kỹ sư đo lại với đồng hồ 1000V nếu nó hoạt động. Nếu không, anh ta chỉ cần đánh dấu 100V và di chuyển trên.
Nhưng điều này có hơi bất công với kỹ sư của chúng ta không? Giả sử anh ta là một kỹ sư và không chỉ đơn thuần là một kỹ thuật viên, anh ta có lẽ hiểu lý do tại sao anh ta cần phải đo lại khi đồng hồ đầu tiên đọc 100V; đó là vì đồng hồ đã bão hòa ở giới hạn trên của phạm vi của nó, do đó không còn đáng tin cậy nữa. Vì vậy, có lẽ những gì các kỹ sư thực sự sẽ làm là
- Nếu đồng hồ 100V đọc 100, kỹ sư đo lại bằng đồng hồ 1000V nếu nó hoạt động. Mặt khác, anh ta chỉ cần đánh dấu 100V, thêm dấu cộng để biểu thị phép đo bão hòa và tiếp tục.
Cả hai quy trình này đều phù hợp với dữ liệu chúng tôi có, nhưng chúng là các quy trình khác nhau và chúng mang lại khoảng tin cậy khác nhau. Quy trình 2 là quy trình chúng tôi muốn làm thống kê. Nếu các điện áp thường cao hơn 100V, Quy trình 1 có chế độ thất bại thảm khốc có thể xảy ra trong đó các phép đo đôi khi bị đánh giá thấp nghiêm trọng, vì dữ liệu bị kiểm duyệt mà chúng ta không biết. Khoảng tin cậy sẽ mở rộng tương ứng. Chúng tôi có thể giảm thiểu điều này bằng cách yêu cầu kỹ sư cho chúng tôi biết khi đồng hồ 1000V của anh ấy không hoạt động, nhưng đây thực sự chỉ là một cách khác để đảm bảo dữ liệu của chúng tôi tuân thủ Quy trình 2.
Nếu con ngựa đã rời chuồng và chúng tôi không thể xác định khi nào các phép đo được kiểm duyệt và không bị kiểm duyệt, chúng tôi có thể cố gắng suy luận dữ liệu về thời gian khi đồng hồ 1000V không hoạt động. Bằng cách đưa quy tắc suy luận vào quy trình, chúng tôi tạo ra một Quy trình 1.5 mới khác biệt so với cả 1 và 2. Quy tắc suy luận của chúng tôi đôi khi sẽ hoạt động và đôi khi không, do đó, khoảng tin cậy từ Quy trình 1.5 sẽ có kích thước trung gian so với Quy trình 1 và 2.
Về lý thuyết, không có gì sai hoặc nghi ngờ về một thống kê duy nhất có ba khoảng tin cậy khác nhau liên quan đến ba quá trình ngẫu nhiên đại diện hợp lý khác nhau. Trong thực tế, ít người tiêu dùng thống kê muốn ba khoảng tin cậy khác nhau. Họ muốn một, một cái dựa trên những gì sẽ thực sự xảy ra, đã làm thí nghiệm được lặp lại nhiều lần. Vì vậy, thông thường, nhà thống kê ứng dụng xem xét kiến thức miền mà cô có được trong dự án, đưa ra phỏng đoán có giáo dục và trình bày khoảng tin cậy liên quan đến quá trình cô đã đoán. Hoặc cô ấy làm việc với khách hàng để chính thức hóa quy trình, vì vậy không cần phải đoán tiếp.
Làm thế nào để phản hồi thông tin mới
Bất chấp sự khăng khăng của nhà thống kê trong câu chuyện, suy luận thường xuyên không yêu cầu chúng ta lặp lại các phép đo khi chúng ta có được thông tin mới cho thấy quá trình tạo ngẫu nhiên không hoàn toàn như những gì chúng ta nghĩ ban đầu. Tuy nhiên, nếu quy trình sẽ được lặp lại, chúng tôi cần đảm bảo rằng tất cả các lần lặp lại đều phù hợp với quy trình mô hình được giả định bởi khoảng tin cậy. Chúng ta có thể làm điều này bằng cách thay đổi quy trình hoặc bằng cách thay đổi mô hình của chúng ta về nó.
Nếu chúng tôi thay đổi quy trình, chúng tôi có thể cần loại bỏ dữ liệu quá khứ được thu thập không phù hợp với quy trình đó. Nhưng đó không phải là vấn đề ở đây, bởi vì tất cả các biến thể quy trình chúng tôi đang xem xét chỉ khác nhau khi một số dữ liệu trên 100V và điều đó không bao giờ xảy ra trong trường hợp này.
Bất cứ điều gì chúng ta làm, mô hình và thực tế phải được đưa vào liên kết. Chỉ sau đó, tỷ lệ lỗi thường xuyên được đảm bảo về mặt lý thuyết sẽ là những gì khách hàng thực sự nhận được khi thực hiện lặp lại quá trình.
Sự thay thế Bayes
Mặt khác, nếu tất cả những gì chúng ta thực sự quan tâm là phạm vi có thể có của ý nghĩa thực sự của mẫu này , chúng ta nên bỏ hoàn toàn chủ nghĩa thường xuyên và tìm kiếm những người bán câu trả lời cho câu hỏi đó - Bayes. Nếu chúng ta đi theo con đường này, tất cả sự mặc cả về các tác dụng phụ trở nên không liên quan; tất cả những gì quan trọng là trước và khả năng. Để đổi lấy sự đơn giản hóa này, chúng tôi mất bất kỳ hy vọng đảm bảo tỷ lệ lỗi dưới hiệu suất lặp lại của "thử nghiệm".
Tại sao lại ồn ào?
Câu chuyện này được xây dựng để làm cho nó trông giống như nhà thống kê thường xuyên quấy khóc vì những điều ngớ ngẩn mà không có lý do. Thành thật mà nói, ai quan tâm đến những phản tác dụng ngớ ngẩn này? Câu trả lời, tất nhiên, là mọi người nên quan tâm. Các lĩnh vực khoa học cực kỳ quan trọng hiện đang bị khủng hoảng sao chép nghiêm trọng , điều này cho thấy tần suất của những khám phá sai lầm cao hơn nhiều so với dự kiến trong các tài liệu khoa học. Một trong những động lực của cuộc khủng hoảng này, mặc dù không phải là duy nhất bằng mọi cách , là sự gia tăng của hack , đó là khi các nhà nghiên cứu chơi với nhiều biến thể của một mô hình, kiểm soát các biến khác nhau, cho đến khi chúng có ý nghĩa.
P-hack đã bị phỉ báng rộng rãi trên các phương tiện truyền thông khoa học phổ biến và thế giới blog, nhưng ít người thực sự hiểu điều gì sai về hack-p và tại sao. Trái với ý kiến thống kê phổ biến, không có gì sai khi xem dữ liệu của bạn trước, trong và sau quá trình lập mô hình. Điều sai là không báo cáo các phân tích thăm dò và làm thế nào chúng ảnh hưởng đến quá trình nghiên cứu. Chỉ bằng cách xem xét toàn bộ quá trình, chúng ta thậm chí có thể xác định mô hình ngẫu nhiên nào là đại diện cho quá trình đó và phân tích thường xuyên nào phù hợp với mô hình đó, nếu có.
Cho rằng một phân tích thường xuyên nhất định là phù hợp là một yêu cầu rất nghiêm trọng. Đưa ra tuyên bố đó ngụ ý rằng bạn đang ràng buộc bản thân với kỷ luật của quy trình ngẫu nhiên mà bạn đã chọn, đòi hỏi toàn bộ hệ thống phản tác dụng về những gì bạn sẽ làm trong các tình huống khác nhau. Bạn phải thực sự tuân thủ hệ thống đó để đảm bảo thường xuyên áp dụng cho bạn. Rất ít nhà nghiên cứu, đặc biệt là những người trong các lĩnh vực nhấn mạnh thăm dò kết thúc mở, tuân thủ hệ thống và họ không báo cáo sai lệch của họ một cách nghiêm túc; đó là lý do tại sao bây giờ chúng ta có một cuộc khủng hoảng sao chép trên tay. (Một số nhà nghiên cứu đáng kính đã lập luận rằng kỳ vọng này là không thực tế, một vị trí tôi đồng cảm, nhưng điều đó đang vượt ra ngoài phạm vi của bài đăng này.)
Có vẻ như không công bằng khi chúng tôi chỉ trích các bài báo được xuất bản dựa trên yêu cầu về những gì họ sẽ làm nếu dữ liệu khác đi. Nhưng đây là bản chất (hơi nghịch lý) của lý luận thường xuyên: nếu bạn chấp nhận khái niệm giá trị p, bạn phải tôn trọng tính hợp pháp của mô hình hóa những gì sẽ được thực hiện theo dữ liệu thay thế. (Gelman & Loken, 2013)
Trong các nghiên cứu tương đối đơn giản và / hoặc tiêu chuẩn hóa, chẳng hạn như các thử nghiệm lâm sàng, chúng tôi có thể điều chỉnh cho những thứ như so sánh nhiều hoặc so sánh liên tục và duy trì tỷ lệ lỗi lý thuyết; trong các nghiên cứu phức tạp và thăm dò hơn, một mô hình thường xuyên có thể không thể áp dụng được vì nhà nghiên cứu có thể không nhận thức đầy đủ về tất cả các quyết định được đưa ra , chứ đừng nói đến việc ghi lại và trình bày chúng một cách rõ ràng. Trong những trường hợp như vậy, nhà nghiên cứu nên (1) trung thực và thẳng thắn về những gì đã được thực hiện; (2) trình bày các giá trị p với sự cảnh báo mạnh mẽ hoặc hoàn toàn không; (3) xem xét trình bày các dòng bằng chứng khác, chẳng hạn như tính hợp lý trước của giả thuyết hoặc nghiên cứu sao chép tiếp theo.