Kiểm tra phân cụm và A / B


8

Câu hỏi của tôi là như sau: Hãy tưởng tượng tôi đã xác định các cụm trong dữ liệu của mình (các phân khúc khách hàng khác nhau) và tôi chạy thử nghiệm A / B. Tôi có thể so sánh hiệu suất của các cụm khác nhau trong bài kiểm tra A / B không? Tôi đã không tìm thấy rất nhiều rác rưởi trên đó (thực tế là gần như không có) vì vậy tôi đã tự hỏi nếu có một lý do thống kê không làm điều đó?

Dưới đây là một lời giải thích chi tiết về vấn đề:

Hãy tưởng tượng tôi chạy thử nghiệm A / B. Nó chỉ ra rằng cả A và B đều không tốt hơn đáng kể về mặt thống kê so với bên kia. Tuy nhiên, sẽ thật tuyệt khi rút ra những hiểu biết sâu sắc từ nó. Có thể một tập hợp con của dân số thích phiên bản B mới và một tập hợp con khác thích phiên bản A. Giả sử tôi đã xác định các cụm trong số các khách hàng của mình, tôi muốn xem các cụm đó bị ảnh hưởng như thế nào bởi thử nghiệm A / B. Chẳng hạn, những người dưới 20 tuổi (cụm A) chuyển đổi thêm 10% trên phiên bản B và những người trên 50 tuổi (cụm B) chuyển đổi ít hơn 10%. Sau đó, thử nghiệm A / B của chúng tôi trước đây đã nói rằng sự thay đổi không mang lại thay đổi có ý nghĩa thống kê cho chúng tôi nhiều thông tin chi tiết hơn. Chúng ta có thể cố gắng hiểu tại sao phiên bản B phù hợp hơn với người trẻ tuổi và ít hơn cho người lớn tuổi. Chúng tôi đã đạt được một số hiểu biết từ thử nghiệm của chúng tôi.

Tất nhiên, nếu bạn làm như thế này, bạn rất có thể sẽ tìm thấy các cụm hoạt động tốt hơn (hoặc tệ hơn) so với các cụm khác. Vì vậy, bạn sẽ phải chạy thử nghiệm A / B khác trên một cụm nhất định, để xác minh giả thuyết của mình.

Tôi đã không tìm thấy những người khác làm điều đó, có một lý do thống kê để không làm điều đó hay đó là một cách hợp pháp để đạt được hiểu biết?

Cảm ơn rất nhiều !

Câu trả lời:


4

Tuyệt đối, bạn có thể so sánh các cụm khác nhau, mặc dù điều quan trọng là bạn phải xem xét cẩn thận những gì bạn suy ra từ ý nghĩa thống kê. Mặc dù nó thực sự là một chỉ số rất tốt, nhưng bản chất của nó là một ngưỡng củap<0.05 sẽ có nghĩa là 1/20các xét nghiệm sẽ dẫn đến kết quả dương tính giả khiến nhiều kỹ sư và nhà khoa học phải thốt lên rằng hiệu ứng có mặt khi không thể. Ngoài ra nếu kiểm tra trở lạip=0.055 bạn sẽ ngay lập tức kết luận rằng không có mối quan hệ ở đó?

Câu hỏi này liên quan đến vấn đề so sánh nhiều trong đó bạn càng áp dụng nhiều bài kiểm tra thì bạn càng có khả năng tìm thấy thứ gì đó có ý nghĩa thống kê. Có những chỉnh sửa đơn giản như bonferroni về cơ bản làm giảm ngưỡngp<0.05/ntests mặc dù điều này phải được sử dụng một cách thận trọng vì nó là một sự điều chỉnh khá tích cực.

Vì vậy, không có hại trong việc xem xét dữ liệu của bạn từ một số cách để rút ra cái nhìn sâu sắc từ nó, trên thực tế tôi sẽ khuyến khích nó. Lời khuyên tốt nhất tôi có thể đưa ra là xem xét dữ liệu của bạn, vẽ ra nó, xem các bản phân phối, bạn có bao nhiêu điểm dữ liệu, chúng có bình thường hay không tham số hoặc bị lệch. Có được cảm giác thực sự về những gì đang diễn ra thay vì chỉ dựa vào các bài kiểm tra thống kê. Nếu bạn có linh cảm và giá trị p nhìn vào công viên bóng bên phải, hãy thu thập thêm dữ liệu và xem điều này có xác nhận lý thuyết của bạn không.


1
Tôi đã sử dụng thường xuyên một cách tiếp cận tương tự. Sau khi thử nghiệm A / B, một tính năng mới, người ta có thể đưa ra các giả thuyết để thử nghiệm với một thử nghiệm khác hoặc để tìm kiếm lý do tại sao một số điều đã xảy ra. Tôi đề cập đến một giá trị bổ sung khác để nghĩ loại thử nghiệm là: gỡ lỗi. Bạn cũng có thể tìm thấy các lỗi khi triển khai một tính năng mới bằng cách phát hiện các thử nghiệm quan trọng không mong muốn trên một số phân khúc.
rapaio
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.