Xác thực kiểm tra web a / b bằng cách chạy lại một thử nghiệm - điều này có hợp lệ không?


11

Một hội thảo trực tuyến vào một ngày khác bởi một công ty thử nghiệm a / b có "Nhà khoa học dữ liệu" thường trú của họ giải thích rằng bạn nên xác thực kết quả của mình bằng cách chạy lại thử nghiệm. Tiền đề là, nếu bạn chọn độ tin cậy 95%, có 5% (1/20) cơ hội dương tính giả. Nếu bạn chạy lại thử nghiệm của mình với cùng một ràng buộc, thì bây giờ có 1/400 (tôi giả sử họ đã xác định đây là 0,05 ^ 2 = 1/400)

Đây có phải là một tuyên bố hợp lệ? (nghĩa là "chạy hai lần, hai lần có ý nghĩa thống kê thắng = 1/400 xác suất dương tính giả")? Nó sẽ là một cách tiếp cận tốt hơn để tăng mức độ quan trọng của bạn?

Từ quan điểm kinh doanh, mối quan tâm của tôi là khi chạy lại thử nghiệm, bạn sẽ đưa nhiều người dùng đến một trang kém hơn (điều trị) và do đó mất đi doanh số tiềm năng.


2
Xin chào John, chào mừng bạn đến với Stats.SE! Nếu bạn hài lòng với một trong hai câu trả lời, bạn nên chấp nhận một trong số chúng hoặc cung cấp thêm câu hỏi rõ ràng hơn về những gì bạn đang tìm kiếm.
Christopher Aden

John, tôi nghi ngờ vấn đề thực sự liên quan đến bối cảnh. Rất hiếm khi mọi người sẽ dành tài nguyên để chỉ học một điều duy nhất tại một thời điểm: họ muốn tận dụng tối đa dữ liệu của họ, vì lý do chính đáng. Điều đó có nghĩa là mỗi tập dữ liệu sẽ được sử dụng cho nhiều bài kiểm tra. Hơn nữa, đôi khi các bài kiểm tra là bài hoc : chúng được lấy cảm hứng từ các mẫu nhìn thấy trong dữ liệu. Trong những trường hợp như vậy, các xét nghiệm không thực sự có độ tin cậy và sao chép 95% (hoặc bất cứ điều gì) mong muốn là điều cần thiết. Vậy: ý nghĩa chính xác của "thí nghiệm" là gì? Câu trả lời bản lề về chi tiết nhỏ đó!
whuber

Về sự lặp lại thử nghiệm và các giá trị quan trọng, hãy kiểm tra truyện tranh XKCD này: xkcd.com/882 Sau khi đọc xong, hãy kiểm tra nhận xét của người viết ở trên.
Lucas Gallindo

whuber: xin lỗi vì thiếu chi tiết, tôi đang tham khảo tối ưu hóa trang web, vì vậy một thử nghiệm ví dụ sẽ dùng thử hai phiên bản trang chủ của tôi, với tỷ lệ chia 50/50 người dùng cho mỗi phiên bản.
Giăng

Câu trả lời:


3

Bỏ qua các xác suất của một dương tính giả hiện tại, tôi sẽ xem xét nó như thế này:

  1. Nếu bạn chạy thử nghiệm hai lần một kết quả giống nhau, bạn sẽ không biết liệu có hai kết quả dương tính thật hay hai kết quả dương tính giả liên tiếp.
  2. Nếu bạn chạy thử nghiệm hai lần và nhận được hai kết quả khác nhau, thì bạn không biết đâu là kết quả dương tính thật và đâu là kết quả dương tính giả.

Trong cả hai trường hợp, bạn nên chạy thử nghiệm thứ ba, chỉ để chắc chắn. Điều này có thể tốt cho các thử nghiệm tương đối rẻ tiền, nhưng khi chi phí có khả năng cao (như mất khách hàng), bạn thực sự cần phải xem xét lợi ích.

Nhìn vào xác suất, lần đầu tiên bạn chạy thử nghiệm, có 1/20 khả năng dương tính giả. Lần thứ hai bạn chạy thử nghiệm, vẫn có 1/20 cơ hội dương tính giả (nghĩ về nó như một con súc sắc trong đó mỗi cuộn có 1/6 cơ hội có được một số nhất định). Chỉ có 1/400 cơ hội có hai dương tính giả liên tiếp.

Vấn đề thực sự là có một giả thuyết được xác định rõ ràng với các quy trình nghiêm ngặt và có kích thước mẫu, mức độ lỗi và khoảng tin cậy mà bạn có thể sống hoặc chi trả. Sự lặp lại của thí nghiệm nên được để lại để khám phá

  1. khách hàng theo thời gian
  2. những thay đổi được thực hiện bởi tổ chức
  3. những thay đổi của cuộc thi

thay vì kết quả đoán thứ hai. Mặc dù giải thích điều này cho các nhà quản lý nói dễ hơn làm.


mjc, cảm ơn rất nhiều vì bình luận - đây chính xác là những gì tôi đang tìm kiếm.
Giăng

2

Vâng, tuyên bố đó là chính xác, giả sử thử nghiệm của bạn là lý tưởng. Nhưng có được một thử nghiệm lý tưởng là cách khó hơn tình cảm này mang lại sự tin cậy. Dữ liệu "thế giới thực" lộn xộn, phức tạp và khó diễn giải ngay từ đầu. Có rất nhiều chỗ để phân tích thiếu sót, các biến ẩn (rất hiếm khi "cùng một ràng buộc") hoặc thông tin sai lệch giữa một nhà khoa học dữ liệu thực hiện công việc của họ và một nhà điều hành đánh dấu làm việc của họ.

Từ quan điểm kinh doanh đảm bảo phương pháp tốt và không quá tự tin vào kết quả; một thử thách khó khăn hơn bạn nghĩ Một khi bạn nhận được những xuống, sau đó làm việc trên 5% đó.


Cảm ơn, đó là câu trả lời cho câu hỏi đầu tiên. Thế còn câu hỏi thứ hai: "Liệu nó có phải là một cách tiếp cận tốt hơn để tăng mức ý nghĩa của bạn?" Chỉ cần thực hiện một mô phỏng nhanh trong R (giữ nguyên kích thước và công suất, chỉ thay đổi giá trị ý nghĩa) tôi có thể thu thập dữ liệu ít hơn ~ 4,8% chỉ bằng cách chọn mức ý nghĩa 97,5%, thay vì chạy thử nghiệm 2X với mức ý nghĩa 95%. Tôi nên làm rõ - khi tôi hỏi "Liệu nó có tốt hơn không .." Ý tôi là, tôi có thể đạt được kết quả cuối cùng bằng cách thu thập ít dữ liệu hơn không.
John
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.