Thử nghiệm AB so với thử nghiệm giả thuyết null

Tôi đang cố gắng để hiểu sự khác biệt giữa

kiểm tra giả thuyết khống (tức là kiểm tra xác suất của "mục tiêu" là giống nhau trên 2 quần thể khác nhau, tương tự như prop.test trong R)
thử nghiệm A / B bằng công thức bayes như được mô tả ở đây: http://www.evanmiller.org/bayesian-ab-testing.html

Có sự khác biệt? Là một trong những thích hợp hơn?

Vấn đề tôi gặp phải trông giống như thế này:

nhóm kiểm soát có 100.000 lần hiển thị và 100 thử nghiệm phản ứng có 50.000 lần hiển thị và 55 phản ứng

Có sự khác biệt?

Đúng. Một thử nghiệm giả thuyết null tạo ra một thống kê thử nghiệm và giá trị p, xác suất của một thống kê thử nghiệm cực kỳ giống với dữ liệu, theo giả định rằng giả thuyết null là đúng. Trong ví dụ của bạn, prop.testkiểm tra giả định rằng và bằng nhau. Điều này khác với xác suất được mô tả trong liên kết của bạn, : $p_A$ $p_B$ $Pr(p_B \gt p_A)$

Trên dữ liệu của bạn, prop.testtạo ra giá trị p là 0,6291; chúng tôi giải thích điều này có nghĩa là nếu , chúng tôi sẽ thấy dữ liệu cực đoan này trong khoảng 63% thí nghiệm. Nhưng điều này không thể giải thích trực tiếp vì xác suất thay thế vượt trội hơn so với kiểm soát. Sử dụng công thức của bài đăng được liên kết, một người đến , có thể hiểu trực tiếp như vậy. (Mã Python sau giờ nghỉ.) $p_A = p_B$ $Pr(p_B \gt p_A) \approx 0.726$

Để có được một chút trực giác về điều này, hãy quan sát hai mật độ sau cho . $p_A, p_B$

Beta (56, 49946), Beta (101, 99901)

Chế độ của rõ ràng ở bên phải chế độ của . Nói cách khác, ước tính điểm của chúng tôi cho cao hơn. Dự kiến, vì . $p_B$ $p_A$ $p_B$ $\frac{55}{50000} \gt \frac{100}{100000}$
Phần sau cho được phân tán nhiều hơn. Trực giác thỏa mãn: vì chúng tôi đã quan sát A gấp đôi số lần, chúng tôi tự tin hơn vào một hậu thế hẹp hơn. $p_B$
Vẫn còn nhiều sự chồng chéo, có thể hình dung rằng hai phương pháp điều trị không có ý nghĩa khác nhau.

Đối với một trợ giúp trực quan cuối cùng, chúng ta có thể vẽ sơ đồ phân phối sự khác biệt của các hậu thế và quan sát rằng khoảng ba phần tư diện tích của nó nằm ở bên phải của : $0$ Sự khác biệt của bản phân phối beta

Để nhắc lại, giá trị p chỉ cho chúng ta biết rằng dữ liệu không đạt đến điểm cực trị mà tại đó chúng ta sẽ bị thuyết phục về sự khác biệt tồn tại.

Là một trong những thích hợp hơn?

Câu hỏi đó là một ví dụ của Bayesian v. Sự lựa chọn thường xuyên hơn, và thường hướng đến các vấn đề về quan điểm. Nói chung, tôi tin rằng câu trả lời phụ thuộc vào nhiều yếu tố, bao gồm ứng dụng, đối tượng và sở thích của nhà phân tích. Dưới đây là một vài cách để xem sự khác biệt giữa hai điều này, hy vọng sẽ giúp hiển thị khi nào có thể thích hợp hơn.

Một lời giới thiệu hay về thử nghiệm A / B của Bayes cho thấy như vậy:

Câu nào trong hai câu này hấp dẫn hơn:

(1) "Chúng tôi bác bỏ giả thuyết khống rằng A = B với giá trị p là 0,043."

(2) "Có 85% khả năng A có mức tăng 5% so với B."

Mô hình Bayes có thể trả lời trực tiếp các câu hỏi như (2).

Đối với một người khác, nhà thống kê lý thuyết Larry Wasserman mô tả độc đáo hai trường phái tư tưởng:

Nhưng trước tiên, tôi nên nói rằng suy luận Bayes và Thường xuyên được xác định bởi mục tiêu của họ chứ không phải phương pháp của họ.

Mục tiêu của suy luận thường xuyên: Xây dựng thủ tục với đảm bảo tần số. (Ví dụ: khoảng tin cậy.)

Mục tiêu của suy luận Bayes: Định lượng và thao túng mức độ niềm tin của bạn. Nói cách khác, suy luận Bayes là Phân tích niềm tin.

>>> from scipy.special import betaln as lbeta
def probability_B_beats_A(a_A, b_A, a_B, b_B):
...     total = 0.0
...     for i in range(a_B):
...         total += exp(lbeta(a_A+i, b_B+b_A) - log(b_B+i) - lbeta(1+i, b_B) - lbeta(a_A, b_A))
...     return total
>>> probability_B_beats_A(101, 100001 - 100, 56, 50001 - 55)
0.72594700264280843

— Phục sinh Sean
nguồn