Câu hỏi của tôi là như sau: Hãy tưởng tượng tôi đã xác định các cụm trong dữ liệu của mình (các phân khúc khách hàng khác nhau) và tôi chạy thử nghiệm A / B. Tôi có thể so sánh hiệu suất của các cụm khác nhau trong bài kiểm tra A / B không? Tôi đã không tìm thấy rất nhiều rác rưởi trên đó (thực tế là gần như không có) vì vậy tôi đã tự hỏi nếu có một lý do thống kê không làm điều đó?
Dưới đây là một lời giải thích chi tiết về vấn đề:
Hãy tưởng tượng tôi chạy thử nghiệm A / B. Nó chỉ ra rằng cả A và B đều không tốt hơn đáng kể về mặt thống kê so với bên kia. Tuy nhiên, sẽ thật tuyệt khi rút ra những hiểu biết sâu sắc từ nó. Có thể một tập hợp con của dân số thích phiên bản B mới và một tập hợp con khác thích phiên bản A. Giả sử tôi đã xác định các cụm trong số các khách hàng của mình, tôi muốn xem các cụm đó bị ảnh hưởng như thế nào bởi thử nghiệm A / B. Chẳng hạn, những người dưới 20 tuổi (cụm A) chuyển đổi thêm 10% trên phiên bản B và những người trên 50 tuổi (cụm B) chuyển đổi ít hơn 10%. Sau đó, thử nghiệm A / B của chúng tôi trước đây đã nói rằng sự thay đổi không mang lại thay đổi có ý nghĩa thống kê cho chúng tôi nhiều thông tin chi tiết hơn. Chúng ta có thể cố gắng hiểu tại sao phiên bản B phù hợp hơn với người trẻ tuổi và ít hơn cho người lớn tuổi. Chúng tôi đã đạt được một số hiểu biết từ thử nghiệm của chúng tôi.
Tất nhiên, nếu bạn làm như thế này, bạn rất có thể sẽ tìm thấy các cụm hoạt động tốt hơn (hoặc tệ hơn) so với các cụm khác. Vì vậy, bạn sẽ phải chạy thử nghiệm A / B khác trên một cụm nhất định, để xác minh giả thuyết của mình.
Tôi đã không tìm thấy những người khác làm điều đó, có một lý do thống kê để không làm điều đó hay đó là một cách hợp pháp để đạt được hiểu biết?
Cảm ơn rất nhiều !