Sự khác biệt giữa G-test và t-test và nên được sử dụng cho thử nghiệm A / B?


8

Các G-Test là một cách để có được ước tính nhanh chóng của một phân phối bình chi, và được khuyến khích bởi tác giả của hướng dẫn thử nghiệm A / B nổi tiếng này .

Công cụ này giả định phân phối bình thường và sử dụng sự khác biệt của phương tiện để tính toán độ tin cậy.

Sự khác biệt giữa kiểm tra G và kiểm tra T là gì? Những lợi ích hoặc nhược điểm của việc sử dụng từng phương pháp để đo lường hiệu quả của các xét nghiệm A / B của chúng tôi là gì?

Tôi đang cố gắng tìm ra cái nào tôi nên sử dụng để đo lường kết quả của khung kiểm tra A / B của mình. Khung của chúng tôi có hai trường hợp sử dụng chung: chia đều nhóm khách truy cập, hiển thị cho mỗi người một tính năng khác nhau và đo lường chuyển đổi của họ trên một số trang khác (giả sử, trang đăng ký); và chia nhóm khách truy cập thành nhóm kiểm soát (90%) và nhóm thử nghiệm (10%) để thử nghiệm và đo lường chuyển đổi trên một số trang khác.

Trang web của chúng tôi nhận được từ 1000 đến 200.000 lượt truy cập mỗi ngày (Tôi đang mơ hồ về mục đích che giấu con số thật, điều này không thay đổi nhiều). Các lượt truy cập này được phân chia với phân phối theo cấp số nhân trên khoảng 300 trang.

Cảm ơn, Kevin


4
Ngẫu nhiên khách truy cập (nghĩa là 50:50 cơ hội kiểm soát hoặc điều trị thử nghiệm) nói chung là một thiết kế tốt , giả sử điều trị thử nghiệm của bạn không làm gì khủng khiếp đối với khách truy cập. Ngoài ra, 1000-200.000 là một phạm vi lớn; Có lý do nào để nghĩ rằng khách truy cập vào những ngày yên tĩnh / bận rộn sẽ (trung bình) sẽ bị ảnh hưởng khác nhau bởi kiểm soát / điều trị thử nghiệm?
khách

Xin chào, Phạm vi mơ hồ vì tôi không muốn chia sẻ số thực tế. Biến động giữa các ngày không lớn.
Kevin Burke

Xin chào Kevin. Tôi tự hỏi nếu bạn có thể làm rõ một điểm cho tôi. Tiêu đề hỏi về sự khác biệt giữa -test và -test. Đọc câu hỏi, nó gần như đọc thay vì như thể bạn quan tâm đến loại nào trong hai loại phân tách mẫu sẽ sử dụng. Trong thực tế, có vẻ như một câu trả lời hiện đang được đăng đã diễn giải các câu hỏi liên quan đến câu hỏi sau. Bạn có thể giải quyết ngắn gọn này? Chúc mừng. tGt
Đức hồng y

Tôi quan tâm nhiều hơn đến sự khác biệt giữa kiểm tra G và kiểm tra T, sẽ cập nhật câu hỏi để làm rõ.
Kevin Burke

Câu trả lời:


8

Nói chung, thử nghiệm ít gần đúng trong việc tính toán thống kê thử nghiệm là tốt hơn, mặc dù tất cả sẽ hội tụ đến cùng kết quả với việc tăng kích thước mẫu.

Vì vậy, vì các bài kiểm tra A / B thường tập trung vào kết quả nhị phân, ...

Câu trả lời ngắn:

Sử dụng G-test, vì nó ít gần đúng.

Câu trả lời dài:

Phép thử t, trong A / B-test trường hợp kích thước mẫu không bằng nhau và phương sai không bằng nhau , xấp xỉ sự khác biệt của hai phân phối với phân phối t, bản thân nó có thể nghi ngờ . Hai phân phối có thể chưa được biết, nhưng điều đó được coi là giá trị trung bình và phương sai của chúng là đủ để mô tả nó (nếu không, bất kỳ kết luận nào sẽ không giúp ích nhiều), điều này tất nhiên đúng với phân phối bình thường.

Trong trường hợp đặc biệt của kết quả nhị phân, phân phối nhị thức có thể được xấp xỉ với phân phối chuẩn với , hợp lệ cho (quy tắc của ngón tay cái, = thử nghiệm, = tỷ lệ thành công).n * p * ( 1 - p ) 9 n pμ= =np,σ2= =np(1-p)n*p*(1-p)9np

Vì vậy, tóm lại, mặc dù có thể áp dụng thử nghiệm t, nhưng hai phép tính gần đúng được thực hiện để chuyển đổi trường hợp nhị thức sang trường hợp chung hơn, điều này không cần thiết ở đây, vì các phép thử gần đúng như thử nghiệm G ​​hoặc (thậm chí tốt hơn ) Thử nghiệm chính xác của Fisher có sẵn cho trường hợp đặc biệt này. Thử nghiệm chính xác của Fisher nên được áp dụng đặc biệt là nếu cỡ mẫu nhỏ hơn 20 (quy tắc khác của ngón tay cái), nhưng tôi đoán điều này không quan trọng trong thử nghiệm A / B rắn.


p= =.9p= =.1

@gung cảm ơn bạn đã chỉ ra rằng, đó là lỗi đánh máy. Btw: Tài liệu tham khảo được sử dụng là Hartung: Statistik, Oldenbourg Phiên bản thứ 14 (không may chỉ có sẵn bằng tiếng Đức)
steffen

5

Trang của Ben Tilly mà bạn tham chiếu là một bản tóm tắt tuyệt vời về thử nghiệm A / B cho người mới bắt đầu. Tuy nhiên, khi bạn nhận được nhiều câu hỏi / vấn đề thiết kế nghiên cứu chi tiết hơn, đáng để tìm kiếm các nguồn chính chi tiết hơn. Kohavi et al đã xuất bản một bài báo chuyên đề về thử nghiệm AB là sự kết hợp tốt giữa tính toàn diện và khả năng đọc. Tôi thực sự khuyên bạn nên sử dụng: http : // khai thác-nền tảng.com / Document / GuideControlledExperiment.pdf .

Quay lại câu hỏi của bạn, những câu hỏi thực sự bạn nên tự hỏi mình là:

  1. Tôi cần bao nhiêu lần hiển thị trong các phương pháp điều trị và kiểm soát để kết quả có ý nghĩa?
  2. Kích thước hiệu ứng tối thiểu mà tôi quan tâm là gì? Bạn có quan tâm đến các phương pháp điều trị tốt hơn ít nhất 5% so với các biện pháp kiểm soát, hoặc tốt hơn 0,05%?
  3. Trong trường hợp điều trị nhiều lần, có một kịch bản để so sánh các phương pháp điều trị với nhau, hoặc liệu có đủ để so sánh từng phương pháp điều trị với kiểm soát không?
  4. Những biến nào là quan trọng để đo lường để đảm bảo rằng các nhóm điều trị không bị ảnh hưởng bởi các tác dụng phụ không chủ ý của thí nghiệm của bạn. Giấy Kohavi có một ví dụ tuyệt vời về điều này về hiệu suất trang web: nếu trải nghiệm điều trị của bạn chậm hơn thì hãy kiểm soát vì bất kỳ lý do gì (nhiều hình ảnh, máy chủ khác nhau, mã nhanh và bẩn), điều này có khả năng làm hỏng nghiêm trọng bài kiểm tra.
  5. Liệu nó có ý nghĩa hơn để ghi danh người dùng hoặc hiển thị vào các thử nghiệm? Nói cách khác, có hợp lý không khi đảm bảo rằng người dùng luôn có được trải nghiệm kiểm soát hoặc điều trị trong suốt thời gian của phiên / thời gian dùng thử hoặc bạn có thể đăng ký từng lần hiển thị trang vào thử nghiệm không?

Khi bạn vượt qua những câu hỏi này, cuối cùng bạn sẽ hiểu rõ hơn về các tham số kiểm tra. Kết hợp với kiến ​​thức tên miền của bạn (ví dụ: liệu trang web của bạn có trải nghiệm mô hình chu kỳ mạnh mà bạn muốn kiểm soát hay không), thèm muốn đưa người dùng đến thử nghiệm (bạn có thực sự sẵn sàng hiển thị trải nghiệm điều trị cho nhiều người dùng hay bạn muốn chứa thiệt hại tiềm tàng) và tốc độ đạt được kết quả mong muốn, sự hiểu biết này sẽ hướng dẫn bạn cuối cùng xác định cách phân chia lưu lượng tổng thể giữa các kiểm soát và phương pháp điều trị.

Tôi ghét trả lời các câu hỏi cụ thể với "nó phụ thuộc", nhưng trong trường hợp này nó thực sự phụ thuộc vào những gì đang xảy ra với trang web và thử nghiệm của bạn. Trong một số điều kiện nhất định, nó sẽ không tạo ra sự khác biệt đáng kể dù phân chia lưu lượng 50/50 hay 90/10, trong khi trong các trường hợp khác nhau, điều này có thể rất quan trọng. YMMV, nhưng một tài liệu tham khảo tốt như bài báo được trích dẫn ở trên chắc chắn sẽ đưa bạn đi đúng hướng.


3
Cảm ơn bạn đã trả lời chu đáo và hữu ích. Tôi nhận ra bạn đã ở đây được vài tháng rồi, nhưng vì đây là lần trả lời đầu tiên của bạn, có vẻ như là một dịp tốt để chào đón bạn đến với trang web. Tôi hy vọng bạn sẽ cảm thấy được truyền cảm hứng để cung cấp nhiều lời khuyên như vậy khi thời gian trôi qua!
whuber

4

Tôi không thể nhận xét về bài đăng gốc vì tôi thiếu điểm StackExchange hoặc bất cứ điều gì, nhưng tôi chỉ muốn chỉ ra rằng đối với giá trị p, ABBA không sử dụng thử nghiệm Z dựa trên xấp xỉ bình thường đơn giản, mặc dù tôi có thể xem làm thế nào bạn có thể nghĩ rằng từ một lần đọc ngắn gọn của trang. ABBA sử dụng số liệu thống kê nhị thức chính xác lên đến cỡ mẫu 100, ngoài ra nó còn dựa vào phép tính gần đúng bình thường với hiệu chỉnh liên tục. Tôi chưa từng thấy các trường hợp khác với các thử nghiệm "ít gần đúng" nhưng tôi sẽ rất thích xem bất kỳ trường hợp nào như vậy nếu bạn gặp phải chúng.

Không có phân phối t hoặc kiểm tra t trong mọi trường hợp.

Đối với các khoảng tin cậy, nó luôn dựa vào một xấp xỉ bình thường, mặc dù nó sử dụng phương pháp Agresti-Coull hoạt động khá tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.