Tôi đang cố gắng hiểu lý do bằng cách chọn một phương pháp thử nghiệm cụ thể khi xử lý thử nghiệm A / B đơn giản - (nghĩa là hai biến thể / nhóm có phản hồi nhị phân (được chuyển đổi hoặc không). Ví dụ tôi sẽ sử dụng dữ liệu bên dưới
Version Visits Conversions
A 2069 188
B 1826 220
Câu trả lời hàng đầu ở đây là tuyệt vời và nói về một số giả định cơ bản cho các bài kiểm tra z, t và chi bình phương. Nhưng điều tôi cảm thấy khó hiểu là các tài nguyên trực tuyến khác nhau sẽ trích dẫn các cách tiếp cận khác nhau và bạn có nghĩ rằng các giả định cho thử nghiệm A / B cơ bản sẽ khá giống nhau không?
- Chẳng hạn, bài viết này sử dụng z-points :
- Bài viết này sử dụng công thức sau (mà tôi không chắc nó có khác với tính toán zscore không?):
- Bài viết này tham khảo bài kiểm tra t (trang 152):
Vì vậy, những tranh luận có thể được thực hiện có lợi cho các phương pháp khác nhau này? Tại sao một người có sở thích?
Để ném thêm một ứng cử viên, bảng trên có thể được viết lại dưới dạng bảng dự phòng 2x2, trong đó có thể sử dụng thử nghiệm chính xác của Fisher (p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Nhưng theo thử nghiệm chính xác của chủ đề này chỉ nên được sử dụng với cỡ mẫu nhỏ hơn (những gì đã bị cắt?)
Và sau đó đã có các thử nghiệm t và z, thử nghiệm f (và hồi quy logistic, nhưng tôi muốn loại bỏ nó ngay bây giờ) .... Tôi cảm thấy như đang chìm đắm trong các phương pháp thử nghiệm khác nhau, và tôi chỉ muốn có thể tạo một số loại đối số cho các phương thức khác nhau trong trường hợp thử nghiệm A / B đơn giản này.
Sử dụng dữ liệu mẫu Tôi đang nhận các giá trị p sau
https://vwo.com/ab-split-test-significance-calculator/ cho giá trị p là 0,001 (điểm z)
http://www.evanmiller.org/ab-testing/chi-squared.html (sử dụng kiểm tra chi bình phương) cho giá trị p là 0,00259
Và trong R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
cho giá trị p là 0,002785305
Mà tôi đoán là khá gần ...
Dù sao - chỉ hy vọng một số cuộc thảo luận lành mạnh về những cách tiếp cận được sử dụng trong thử nghiệm trực tuyến trong đó kích thước mẫu thường là hàng ngàn và tỷ lệ phản hồi thường là 10% hoặc ít hơn. Ruột của tôi đang bảo tôi sử dụng chi-vuông, nhưng tôi muốn có thể trả lời chính xác lý do tại sao tôi chọn nó trong vô số cách khác để làm điều đó.