Xác định an toàn cỡ mẫu cho thử nghiệm A / B

Tôi là một kỹ sư phần mềm đang tìm cách xây dựng một công cụ kiểm tra A / B. Tôi không có nền tảng số liệu thống kê vững chắc nhưng đã đọc khá nhiều trong vài ngày qua.

Tôi đang làm theo phương pháp được mô tả ở đây và sẽ tóm tắt các điểm liên quan, dưới đây.

Công cụ này sẽ cho phép các nhà thiết kế và chuyên gia tên miền định cấu hình trang web để phân chia lưu lượng truy cập nhận được tại một URL cụ thể giữa hai hoặc nhiều URL. Ví dụ: lưu lượng truy cập đến tại http://example.com/hello1 có thể được phân chia giữa http://example.com/hello1 và http://example.com/hello2 . Lưu lượng truy cập sẽ được phân chia đồng đều giữa các URL mục tiêu và hiệu suất của các quy trình tiếp thị tại mỗi URL mục tiêu sẽ được so sánh.

Trong thí nghiệm này, kích thước mẫu Nsẽ tương ứng với khách truy cập. Thử nghiệm sẽ đo lường "chuyển đổi", một thuật ngữ mô tả khi khách truy cập cam kết thực hiện một hành động cụ thể trong quy trình tiếp thị. Chuyển đổi được thể hiện bằng tỷ lệ phần trăm và tỷ lệ chuyển đổi cao hơn là mong muốn. Điều này làm cho bài kiểm tra so sánh tỷ lệ độc lập. Công cụ cần phải có khả năng dễ dàng được sử dụng để tạo ra các thử nghiệm với kết quả an toàn. Chọn một giá trị thích hợp Nlà quan trọng.

Trong bài viết được liên kết, ở trên, một phân tích sức mạnh của hai tỷ lệ độc lập được sử dụng để tìm N. Phương pháp này yêu cầu người ta phải biết trước tỷ lệ chuyển đổi của điều khiển cũng như chỉ định cải tiến chuyển đổi mong muốn. Nó cũng chỉ định mức ý nghĩa 95% và sức mạnh thống kê là 80%.

Câu hỏi:

Đây có phải là phương pháp xác định Nâm thanh? Nếu vậy, cách an toàn nhất để xác định tỷ lệ chuyển đổi của kiểm soát trước khi bắt đầu thử nghiệm là gì?
Có cách xác định hợp Nlý nào không yêu cầu người ta biết trước tỷ lệ chuyển đổi của kiểm soát không?
Là phương pháp trong bài viết liên kết âm thanh? Nếu không, có phương pháp nào dễ tiếp cận và dễ tiêu hóa ngoài kia mà bạn có thể liên kết với tôi không?

— jkndrkn
nguồn

Câu trả lời:

Phương pháp phổ biến nhất để thực hiện loại thử nghiệm này là với khoảng tin cậy tỷ lệ nhị thức (xem http://bit.ly/fa2K7B )

Bạn sẽ không thể biết tỷ lệ chuyển đổi "thực sự" của hai đường dẫn, nhưng điều này sẽ cho bạn khả năng nói điều gì đó với hiệu ứng "Với độ tin cậy 99%, A hiệu quả hơn khi chuyển đổi so với B".

Ví dụ: Giả sử rằng bạn đã chạy 1000 thử nghiệm trên đường A. Trong 1000 thử nghiệm này, 121 là chuyển đổi thành công (tỷ lệ chuyển đổi là 0,125) và chúng tôi muốn khoảng tin cậy 99% xung quanh kết quả 0.121 này. Z-score for khoảng tin cậy 99% là 2,576 (bạn chỉ cần nhìn lên này trong một bảng), vì vậy theo công Vì vậy, với 99% độ tin cậy, chúng tôi có thể nói rằng, nơi là tỷ lệ chuyển đổi "true" của quá trình A.

\begin{aligned} \hat{p} & \pm 2.576 (\sqrt{\frac{0.121 * (1 - 0.121)}{1000}}) \\ \hat{p} & \pm 0.027 \end{aligned}

$\begin{aligned} \hat p &\pm 2.576\left(\sqrt{\frac{0.121 * (1 - 0.121)}{1000}}\right) \\ \hat p &\pm 0.027 \end{aligned}$

0.094 \leq \hat{p} \leq 0.148

$0.094 \le \hat p \le 0.148$

\hat{p}

$\hat p$

Nếu chúng ta xây dựng một khoảng tương tự cho quá trình B, chúng ta có thể so sánh các khoảng. Nếu các khoảng không trùng nhau, thì chúng ta có thể nói với độ tin cậy 98% rằng cái này tốt hơn cái kia. (Hãy nhớ rằng, chúng tôi chỉ tự tin 99% về mỗi khoảng thời gian, vì vậy, sự tự tin chung của chúng tôi về so sánh là 0,99 * 0,99)

Nếu các khoảng thời gian trùng nhau, thì chúng ta phải chạy nhiều thử nghiệm hơn hoặc quyết định rằng chúng quá giống nhau về hiệu suất để phân biệt, điều này mang lại cho chúng ta phần khó khăn - xác định , số lượng thử nghiệm. Tôi không quen thuộc với các phương pháp khác, nhưng với phương pháp này, bạn sẽ không thể xác định trước trừ khi bạn có ước tính chính xác về hiệu suất của cả A và B lên phía trước. Mặt khác, bạn sẽ phải chạy thử nghiệm cho đến khi bạn nhận được các mẫu sao cho các khoảng cách riêng biệt. $N$ $N$

Nhưng điêu tôt đẹp nhât se đên vơi bạn. (Nhân tiện, tôi đang root cho quy trình B).

— ronny
nguồn

Chào mừng đến với trang web, @ronny. Vì bạn là người mới ở đây nên bạn có thể muốn đọc Câu hỏi thường gặp của chúng tôi . Trong số những thứ khác, trang web này hỗ trợ

L A T E X

$\LaTeX$

\hat{p}

$\hat p$

\hat{p}

$\hat p$

0.094 \leq \hat{p} \leq 0.148

$0.094 \leq \hat p \leq 0.148$

từ quan sát. Tôi muốn có văn bản phía trên hai

từ quan sát), nhưng thấp hơn hai

mà không mũ (đối với tỷ lệ đúng).

\frac{s u c e s s e s}{t r i a l s}

$\frac{sucesses}{trials}$

\hat{p}

$\hat p$

p

$p$

— cbeleites hỗ trợ Monica

Câu trả lời này không chính xác. Cụ thể: "Nếu các khoảng không trùng nhau, thì chúng ta có thể nói với độ tin cậy 98% rằng cái này tốt hơn cái kia" là sai. Đưa ra hai khoảng tin cậy 99% không chồng chéo, độ tin cậy rằng chênh lệch loại trừ 0 như ở mức tối đa 99%. Nếu các khoảng có cùng kích thước, sự khác biệt có ý nghĩa ở mức khoảng 99,97%. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf

— Bscan

@Bscan Nhận xét của bạn có giữ các giá trị khác không? Ví dụ, có đúng không khi nói (theo lời khen của bạn) rằng sự khác biệt của phương tiện ít nhất là 30% nếu chúng ta có hai khoảng tin cậy 30% không chồng chéo có cùng kích thước?

— Felipe Almeida

@Felipe, có, nhận xét giữ cho tất cả các giá trị và khoảng tin cậy 30% không chồng chéo ngụ ý độ tin cậy rằng chênh lệch loại trừ 0 ít nhất là 30%. Tuy nhiên, điều này không có nghĩa là có sự khác biệt 30% về phương tiện. Các phương tiện thực sự có thể rất giống nhau; chúng tôi chỉ đơn giản là cố gắng chứng minh chúng không giống hệt nhau.

— Bscan

IMHO, theo như nó đi, bài viết đi đúng hướng. Tuy nhiên:

Phương pháp đề xuất hoàn toàn đưa ra hai giả định: tỷ lệ chuyển đổi cơ sở và lượng thay đổi dự kiến. Cỡ mẫu phụ thuộc rất nhiều vào mức độ bạn đáp ứng những giả định này. Tôi khuyên bạn nên tính toán kích thước mẫu cần thiết cho một số kết hợp p1 và p2 mà bạn nghĩ là thực tế. Điều đó sẽ cho bạn cảm giác về việc tính toán kích thước mẫu thực sự đáng tin cậy như thế nào.
```
> power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)

     Two-sample comparison of proportions power calculation 

              n = 14750.79
             p1 = 0.1
             p2 = 0.11
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

 NOTE: n is number in *each* group 

> power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)

     Two-sample comparison of proportions power calculation 

              n = 16582.2
             p1 = 0.09
             p2 = 0.099
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

 NOTE: n is number in *each* group 
```
Vì vậy, nếu tỷ lệ chuyển đổi thực tế là 9% thay vì 10%, bạn cần 2000 trường hợp khác cho mỗi kịch bản để phát hiện tỷ lệ chuyển đổi 10% so với mức cơ bản của biểu mẫu mới.

Sau khi kiểm tra xong, bạn có thể tính khoảng tin cậy cho các tỷ lệ dựa trên các quan sát thực tế của bạn.

$n$
$n$ sig.level

— cbeleites hỗ trợ Monica
nguồn

Xin chào, cảm ơn rất nhiều vì đã dành thời gian để phê bình những phương pháp này. Trong phép tính (1 - α) ² 10%, "α" đề cập đến điều gì? Vì việc thu thập dữ liệu thử nghiệm mất nhiều thời gian, làm thế nào để bạn đề xuất một người nên xây dựng thử nghiệm này nếu muốn kiểm tra ba tỷ lệ? Có cách nào an toàn để không liên quan đến việc chạy nhiều bài kiểm tra không? Với ba lựa chọn thay thế, ba thử nghiệm không quá nặng nề, nhưng với bốn lựa chọn thay thế, số lượng kết hợp bắn lên đến sáu.

— jkndrkn

@jkndrkn: α là xác suất sai khi thay đổi khỏi dạng ban đầu, còn gọi là lỗi α hoặc lỗi loại I. Xem câu trả lời cập nhật.

— cbeleites hỗ trợ Monica

@jkndrkn: Nhiều bài kiểm tra: Tôi muốn xem Fleiss et.al.: Phương pháp thống kê về tỷ lệ và tỷ lệ về các thủ tục cho các bài kiểm tra đó. Tuy nhiên, điểm mấu chốt của nhiều thử nghiệm như vậy là luôn sử dụng kiến thức chuyên môn để cắt giảm số lượng thay thế càng nhiều càng tốt trước khi xác định thử nghiệm vì kích thước mẫu được yêu cầu bùng nổ với số lượng thay thế (như bạn đã nhận ra).

— cbeleites hỗ trợ Monica

-1

Thay vì tính các khoảng chồng chéo, bạn tính điểm Z. Đây là thuật toán dễ thực hiện hơn và bạn sẽ nhận được các thư viện thống kê để trợ giúp.

Hãy xem: https://onlinecferences.science.psu.edu/stat200/node/53

— Shambhu
nguồn