Thử nghiệm A / B: thử nghiệm z-test vs t-test vs chi vuông vs thử nghiệm chính xác của ngư dân


38

Tôi đang cố gắng hiểu lý do bằng cách chọn một phương pháp thử nghiệm cụ thể khi xử lý thử nghiệm A / B đơn giản - (nghĩa là hai biến thể / nhóm có phản hồi nhị phân (được chuyển đổi hoặc không). Ví dụ tôi sẽ sử dụng dữ liệu bên dưới

Version  Visits  Conversions
A        2069     188
B        1826     220

Câu trả lời hàng đầu ở đây là tuyệt vời và nói về một số giả định cơ bản cho các bài kiểm tra z, t và chi bình phương. Nhưng điều tôi cảm thấy khó hiểu là các tài nguyên trực tuyến khác nhau sẽ trích dẫn các cách tiếp cận khác nhau và bạn có nghĩ rằng các giả định cho thử nghiệm A / B cơ bản sẽ khá giống nhau không?

  1. Chẳng hạn, bài viết này sử dụng z-points :nhập mô tả hình ảnh ở đây
  2. Bài viết này sử dụng công thức sau (mà tôi không chắc nó có khác với tính toán zscore không?):

nhập mô tả hình ảnh ở đây

  1. Bài viết này tham khảo bài kiểm tra t (trang 152):

nhập mô tả hình ảnh ở đây

Vì vậy, những tranh luận có thể được thực hiện có lợi cho các phương pháp khác nhau này? Tại sao một người có sở thích?

Để ném thêm một ứng cử viên, bảng trên có thể được viết lại dưới dạng bảng dự phòng 2x2, trong đó có thể sử dụng thử nghiệm chính xác của Fisher (p5)

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

Nhưng theo thử nghiệm chính xác của chủ đề này chỉ nên được sử dụng với cỡ mẫu nhỏ hơn (những gì đã bị cắt?)

Và sau đó đã có các thử nghiệm t và z, thử nghiệm f (và hồi quy logistic, nhưng tôi muốn loại bỏ nó ngay bây giờ) .... Tôi cảm thấy như đang chìm đắm trong các phương pháp thử nghiệm khác nhau, và tôi chỉ muốn có thể tạo một số loại đối số cho các phương thức khác nhau trong trường hợp thử nghiệm A / B đơn giản này.

Sử dụng dữ liệu mẫu Tôi đang nhận các giá trị p sau

  1. https://vwo.com/ab-split-test-significance-calculator/ cho giá trị p là 0,001 (điểm z)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html (sử dụng kiểm tra chi bình phương) cho giá trị p là 0,00259

  3. Và trong R fisher.test(rbind(c(1881,188),c(1606,220)))$p.valuecho giá trị p là 0,002785305

Mà tôi đoán là khá gần ...

Dù sao - chỉ hy vọng một số cuộc thảo luận lành mạnh về những cách tiếp cận được sử dụng trong thử nghiệm trực tuyến trong đó kích thước mẫu thường là hàng ngàn và tỷ lệ phản hồi thường là 10% hoặc ít hơn. Ruột của tôi đang bảo tôi sử dụng chi-vuông, nhưng tôi muốn có thể trả lời chính xác lý do tại sao tôi chọn nó trong vô số cách khác để làm điều đó.


zt

Tôi thấy cuộc biểu tình này khá hữu ích. Điều đó cho thấy rằng phép thử z cho tỷ lệ về cơ bản tương đương với phép thử chi bình phương về độ đồng nhất trên bảng dự phòng 2x2. rinterested.github.io/statistic/chi_sapes_same_as_z_test.html
yueyanw

Câu trả lời:


24

Chúng tôi sử dụng các xét nghiệm này vì những lý do khác nhau và trong những trường hợp khác nhau.

  1. zzzz

  2. ttttz

zt

  1. ztz

  2. ppp

Tôi tiếp tục thảo luận về kích thước mẫu - các tài liệu tham khảo khác nhau sẽ cung cấp cho bạn các số liệu khác nhau khi mẫu của bạn đủ lớn. Tôi sẽ chỉ tìm một nguồn có uy tín, xem xét quy tắc của họ và áp dụng quy tắc của họ để tìm bài kiểm tra bạn muốn. Tôi sẽ không "mua sắm xung quanh", để nói, cho đến khi bạn tìm thấy một quy tắc mà bạn "thích".

zt

Điều này có nghĩa không? Hi vọng điêu nay co ich!


Cảm ơn các câu trả lời chi tiết! Tôi sẽ đi vào chi tiết - Tôi chắc chắn tôi sẽ có một vài câu hỏi!
L Xandor

Bạn có thể giải thích thêm về cách kiểm tra chính xác chi bình phương và Fisher không chỉ ra hướng của hiệu ứng không? Nếu tất cả các kiểm tra thống kê suy luận cung cấp mức độ tin cậy xung quanh việc hai bộ mẫu được rút ra từ các quần thể khác nhau hoặc cùng một quần thể, thì lý thuyết toán học sẽ không cho phép bạn nói sự khác biệt định hướng trong các giá trị trung bình sẽ giữ (nhóm B có điểm cao hơn)?
Chris F

Để rõ ràng, kiểm tra chi bình phương và kiểm tra chính xác của Fisher đang làm điều tương tự nhưng giá trị p được tính hơi khác nhau. (Đó là một xấp xỉ theo bình phương chi và tính toán chính xác theo chính xác của Fisher.) Tôi sẽ giải quyết chi bình phương và nó sẽ khái quát cho Fisher. Vấn đề ở đây là tiền đề. "Nếu tất cả các kiểm tra thống kê suy luận cung cấp một mức độ tin cậy xung quanh việc hai mẫu được rút ra từ ..." - đó không phải là những gì kiểm tra chi bình phương làm. Giả thuyết khống cho bài kiểm tra chi bình phương là không có mối liên hệ nào và giả thuyết thay thế ...
Matt Brems

... là có một số liên kết giữa hai biến phân loại. Bạn chỉ đang thử nghiệm sự tồn tại của một hiệp hội và không chỉ định trước một hướng nhất định. (Có một số thống kê ít được biết đến ngoài đó, DO chỉ định một mối quan hệ nhất định, do đó có thể xảy ra; tuy nhiên đây không phải là thử nghiệm chi bình phương được thiết kế để thực hiện.) một giá trị p được tính theo một loạt các giả thuyết khác nhau được thiết kế để chỉ kiểm tra sự tồn tại của một hiệp hội sẽ là một sai lầm.
Matt Brems

H0:μ=0HA:μ0tpμμH0:μ0HA:μ>0pα=0.05μ

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.