Tôi đã nghiên cứu thống kê nhiều năm trước và đã quên tất cả vì vậy đây có thể là những câu hỏi khái niệm chung hơn bất cứ điều gì cụ thể nhưng đây là vấn đề của tôi.
Tôi làm việc cho một trang web thương mại điện tử với tư cách là Nhà thiết kế UX. Chúng tôi có một khung thử nghiệm A / B đã được xây dựng từ nhiều năm trước mà tôi bắt đầu nghi ngờ về nó.
Số liệu chúng tôi đưa ra tất cả các quyết định của mình được gọi là chuyển đổi và dựa trên tỷ lệ phần trăm người dùng truy cập trang web, cuối cùng mua một thứ gì đó.
Vì vậy, chúng tôi muốn thử nghiệm thay đổi màu của nút Mua từ Xanh sang Xanh.
Kiểm soát là những gì chúng tôi đã có, nút Xanh lục nơi chúng tôi biết tỷ lệ chuyển đổi trung bình của chúng tôi là gì. Thí nghiệm đang thay thế nút Xanh lục bằng nút Xanh lam.
Chúng tôi đồng ý 95% ý nghĩa là mức độ tự tin mà chúng tôi hài lòng và chúng tôi bật thử nghiệm, để nó chạy.
Khi người dùng truy cập trang web, đằng sau hậu trường có cơ hội 50/50 họ sẽ được gửi đến phiên bản điều khiển (nút màu xanh lá cây) Vs phiên bản thử nghiệm (nút màu xanh).
Sau khi xem xét nghiệm sau 7 ngày, tôi thấy mức tăng chuyển đổi 10,2% có lợi cho thử nghiệm với cỡ mẫu 3000 (1500 đi đến kiểm soát, 1500 đến thử nghiệm) và ý nghĩa thống kê là 99,2%. Tuyệt vời tôi nghĩ.
Thử nghiệm tiếp tục, kích thước mẫu tăng lên và sau đó tôi thấy tỷ lệ chuyển đổi tăng thêm 9% với mức ý nghĩa 98,1%. Ok, giữ cho thử nghiệm chạy lâu hơn và bây giờ thử nghiệm chỉ cho thấy mức tăng chuyển đổi 5% với ý nghĩa thống kê chỉ là 92%, với khung cho tôi biết tôi cần thêm 4600 mẫu trước khi tôi đạt mức ý nghĩa 95%?
Tại thời điểm nào là thí nghiệm kết luận sau đó?
Nếu tôi nghĩ rằng nói về một quy trình thử nghiệm lâm sàng khi bạn đồng ý trước về cỡ mẫu và khi hoàn thành thử nghiệm, bạn sẽ thấy sự cải thiện 10% của bất kỳ số liệu nào có ý nghĩa đến 99%, thì quyết định được đưa ra là thuốc đó sẽ được đưa ra thị trường. Nhưng sau đó, nếu họ đã thực hiện thử nghiệm trên 4000 người và họ thấy sự cải thiện 5% của bất kỳ số liệu nào chỉ còn đáng kể 92% thì loại thuốc đó sẽ không được phép đưa ra thị trường.
Chúng ta có nên đồng ý về kích thước mẫu trước và dừng lại khi đạt được kích thước mẫu đó và hài lòng với kết quả nếu mức ý nghĩa là 99% tại thời điểm tắt thử nghiệm?