Tại sao lại chạy thử nghiệm phân tách cho đến khi có ý nghĩa thống kê về một điều xấu của Nhật Bản? (Hoặc là nó?)

Tôi đọc bài viết này về "làm thế nào để không chạy thử nghiệm A / B".

Và tôi vẫn không hiểu chính xác lý luận của tác giả là gì. Ai đó có thể câm nó xuống cho tôi?

Tôi nghĩ những gì nó có thể nói là việc đọc kết quả của các bài kiểm tra phân tách của tôi theo thời gian đánh lừa tôi. Tôi muốn có thể hiểu điều này đủ tốt để tôi có thể giải thích nó cho người khác, mặc dù.

Có ai giúp đỡ không?

statistical-significance experiment-design

— Justin Bozonier
nguồn

Đó là hiện tượng "hai trong ba tốt nhất". Bạn biết trò đùa:

"Hãy lật cho nó."

"Được, đi!"

"Rất tiếc, tôi đã thua. Làm thế nào về việc lật thêm hai lần nữa, với người chiến thắng là người giỏi nhất trong ba lần?"

Kiểm tra ý nghĩa chính xác giống như lật đồng xu (nhưng thường là với các đồng tiền thiên vị). Nếu bạn chạy thử nghiệm ngắn và nó không đáng kể, có thể bạn có thể đạt được ý nghĩa (một phần nhờ may mắn) bằng cách kéo dài thử nghiệm.

Điều ngược lại (tôi rất muốn nói "mặt trái" của điều này :-)) là nếu bạn dự định tiến hành một số thử nghiệm nhất định và tình cờ thấy kết quả "đáng kể" sớm, điều đó cũng không có ý định. Nó tương tự như mặt trái của cuộc thi đầu tiên của chúng tôi:

"Chúng ta hãy lật nó. Tốt nhất hai trong số ba?"

"Được, đi!"

"Ha, tôi đã thắng lần đầu tiên, vì vậy tôi thắng!"

Đã nói rằng, lưu ý rằng có các phiên bản thử nghiệm cho phép bạn theo dõi ý nghĩa (danh nghĩa) khi bạn đi cùng. Những việc này giống như kết thúc một cuộc thi sớm khi nó trở nên quá phiến diện, cái gọi là quy tắc thương xót . Nếu, trong thời gian đầu, điều cực kỳ rõ ràng là sự khác biệt là có thật, bạn có thể tiết kiệm thời gian và công sức bằng cách kết thúc thử nghiệm. Chúng được gọi là thủ tục kiểm tra giả thuyết tuần tự . Một trường hợp tốt có thể được thực hiện rằng đây phải là cách tiêu chuẩn để tiến hành các xét nghiệm AB, bởi vì về lâu dài, bạn sẽ tốn ít thời gian và công sức hơn.

— whuber
nguồn