Xác định cỡ mẫu trước khi bắt đầu thử nghiệm hoặc chạy thử nghiệm vô thời hạn?


12

Tôi đã nghiên cứu thống kê nhiều năm trước và đã quên tất cả vì vậy đây có thể là những câu hỏi khái niệm chung hơn bất cứ điều gì cụ thể nhưng đây là vấn đề của tôi.

Tôi làm việc cho một trang web thương mại điện tử với tư cách là Nhà thiết kế UX. Chúng tôi có một khung thử nghiệm A / B đã được xây dựng từ nhiều năm trước mà tôi bắt đầu nghi ngờ về nó.

Số liệu chúng tôi đưa ra tất cả các quyết định của mình được gọi là chuyển đổi và dựa trên tỷ lệ phần trăm người dùng truy cập trang web, cuối cùng mua một thứ gì đó.

Vì vậy, chúng tôi muốn thử nghiệm thay đổi màu của nút Mua từ Xanh sang Xanh.

Kiểm soát là những gì chúng tôi đã có, nút Xanh lục nơi chúng tôi biết tỷ lệ chuyển đổi trung bình của chúng tôi là gì. Thí nghiệm đang thay thế nút Xanh lục bằng nút Xanh lam.

Chúng tôi đồng ý 95% ý nghĩa là mức độ tự tin mà chúng tôi hài lòng và chúng tôi bật thử nghiệm, để nó chạy.

Khi người dùng truy cập trang web, đằng sau hậu trường có cơ hội 50/50 họ sẽ được gửi đến phiên bản điều khiển (nút màu xanh lá cây) Vs phiên bản thử nghiệm (nút màu xanh).

Sau khi xem xét nghiệm sau 7 ngày, tôi thấy mức tăng chuyển đổi 10,2% có lợi cho thử nghiệm với cỡ mẫu 3000 (1500 đi đến kiểm soát, 1500 đến thử nghiệm) và ý nghĩa thống kê là 99,2%. Tuyệt vời tôi nghĩ.

Thử nghiệm tiếp tục, kích thước mẫu tăng lên và sau đó tôi thấy tỷ lệ chuyển đổi tăng thêm 9% với mức ý nghĩa 98,1%. Ok, giữ cho thử nghiệm chạy lâu hơn và bây giờ thử nghiệm chỉ cho thấy mức tăng chuyển đổi 5% với ý nghĩa thống kê chỉ là 92%, với khung cho tôi biết tôi cần thêm 4600 mẫu trước khi tôi đạt mức ý nghĩa 95%?

Tại thời điểm nào là thí nghiệm kết luận sau đó?

Nếu tôi nghĩ rằng nói về một quy trình thử nghiệm lâm sàng khi bạn đồng ý trước về cỡ mẫu và khi hoàn thành thử nghiệm, bạn sẽ thấy sự cải thiện 10% của bất kỳ số liệu nào có ý nghĩa đến 99%, thì quyết định được đưa ra là thuốc đó sẽ được đưa ra thị trường. Nhưng sau đó, nếu họ đã thực hiện thử nghiệm trên 4000 người và họ thấy sự cải thiện 5% của bất kỳ số liệu nào chỉ còn đáng kể 92% thì loại thuốc đó sẽ không được phép đưa ra thị trường.

Chúng ta có nên đồng ý về kích thước mẫu trước và dừng lại khi đạt được kích thước mẫu đó và hài lòng với kết quả nếu mức ý nghĩa là 99% tại thời điểm tắt thử nghiệm?


1
Bạn có thể cân nhắc sử dụng một cách tiếp cận khác nhau dựa trên xếp hạng & lựa chọn .
pjs

Tôi đã xem qua bộ phim này ( youtube.com/watch?v=fl9V0U2SGeI ). Âm thanh với tôi như nó trả lời chính xác câu hỏi của bạn.
Nathan

Cũng đáng chú ý điều cơ bản của nghiên cứu là phản xạ cao, di chuyển nhanh và yêu cầu kiểm tra lặp lại liên tục. Bố cục, màu sắc, nút, vv di chuyển nhanh khi các trang web, tiêu chuẩn và phong cách mới xuất hiện. Ngoài ra mức độ cao của các sự cố kết hợp (nút đó có thể trả về các kết quả khác nhau với một chút điều chỉnh về màu nền, v.v.). Kết quả là, bất kể mức độ quan trọng nào, bạn không thể có mức độ tự tin 'thực sự' rất cao (và chắc chắn không phải trong thời gian dài) trong kết quả ngay cả khi chúng trông rất mạnh mẽ.
Philip

Câu trả lời:


11

Tôi nghĩ rằng khái niệm bạn đang tìm kiếm là phân tích tuần tự. Có một số câu hỏi trên trang web này được gắn thẻ với thuật ngữ mà bạn có thể thấy hữu ích, có lẽ Điều chỉnh giá trị p để phân tích tuần tự thích ứng (đối với kiểm tra chi bình phương)? sẽ là một nơi để bắt đầu. Bạn cũng có thể tham khảo bài viết Wikipedia ở đây . Một thuật ngữ tìm kiếm hữu ích khác là chi tiêu alpha xuất phát từ thực tế là khi bạn thực hiện mỗi lần nhìn lặp đi lặp lại, bạn nên coi đó là sử dụng một số alpha (mức ý nghĩa) của bạn. Nếu bạn tiếp tục nhìn trộm dữ liệu của mình mà không tính đến nhiều so sánh trong tài khoản, bạn sẽ gặp phải loại vấn đề mà bạn nêu ra trong câu hỏi của mình.


Cảm ơn, đó là một số khuyến nghị đọc tốt. Tôi thậm chí sẽ không biết những gì đã tìm kiếm khác. Sẽ tiêu thụ này.
Công nghệ 75

5

Tại thời điểm nào là thí nghiệm kết luận sau đó?

Tôi nghĩ rằng đây là nơi lỗi trong suy nghĩ. Không có điểm nào mà thí nghiệm có thể "kết luận" nếu bạn cho rằng điều đó có nghĩa là "chứng minh nhân quả". Khi bạn đang thực hiện một thử nghiệm liên quan đến kiểm tra thống kê, bạn cần đưa ra cam kết về bằng chứng nào bạn cho là đủ tốt.

Các quy trình thử nghiệm thống kê cho bạn kết quả với tỷ lệ đã biết về dương tính giả và âm tính giả. Nếu bạn đã chọn một quy trình sử dụng 0,05 làm ngưỡng có ý nghĩa, bạn đang nói rằng bạn sẵn sàng chấp nhận rằng trong 5% trường hợp thực sự không có sự khác biệt, thử nghiệm của bạn sẽ cho bạn biết rằng có sự khác biệt.

Nếu bạn đi chệch khỏi quy trình theo cách bạn mô tả (không chọn điểm dừng trước thời hạn, chỉ cần chạy thử cho đến khi giá trị p được tính của bạn giảm xuống dưới 0,05 hoặc chạy toàn bộ thử nghiệm nhiều lần cho đến khi bạn nhận được kết quả dương tính , v.v.), bạn đang làm cho nhiều khả năng bài kiểm tra của bạn sẽ cho bạn biết rằng có một sự khác biệt tồn tại khi thực tế không có sự khác biệt. Bạn đang làm cho nhiều khả năng bạn sẽ bị lừa khi nghĩ rằng sự thay đổi của bạn có hiệu quả. Đừng để bản thân bị lừa.

Đọc bài viết này: Tâm lý học tích cực sai không thể tiết lộ tính linh hoạt trong thu thập và phân tích dữ liệu cho phép trình bày bất cứ điều gì quan trọng

Nó nêu bật một số cách mà bạn có thể can thiệp không đúng vào quy trình thử nghiệm khiến bạn dễ bị lừa hơn, bao gồm cả kịch bản chính xác mà bạn mô tả (không biết khi nào nên dừng thử nghiệm).

Các câu trả lời khác cung cấp cho bạn một số giải pháp để giảm thiểu những vấn đề này (phân tích tuần tự, hiệu chỉnh Bonferroni cho nhiều so sánh). Nhưng những giải pháp, trong khi khả năng kiểm soát tốc độ dương tính giả, thường làm giảm sức mạnh của thí nghiệm, làm cho nó ít có khả năng phát hiện sự khác biệt khi họ làm tồn tại.


Có một lỗi khác bạn đang mắc phải. Bạn nói về "cải thiện 10% của bất kỳ số liệu nào đến mức ý nghĩa 99%". Các xét nghiệm quan trọng chỉ có thể cho bạn biết liệu sự khác biệt quan sát được trong mẫu của bạn có khả năng là do sự khác biệt cơ bản thực sự hay chỉ là tiếng ồn ngẫu nhiên; họ không cung cấp cho bạn khoảng tin cậy xung quanh mức độ thực sự của sự khác biệt.


3

Tôi nghĩ rằng bạn đang đặt câu hỏi sai ở đây. Câu hỏi bạn đang hỏi là về các bài kiểm tra thống kê; Tôi nghĩ câu hỏi đúng là "tại sao hiệu ứng lại thay đổi theo thời gian?"

Nếu bạn đang đo lường biến 0/1 để chuyển đổi (họ có mua gì không?) Thì những người không mua trong phiên ban đầu có thể quay lại và mua sau. Điều này có nghĩa là tỷ lệ chuyển đổi sẽ tăng theo thời gian và mọi ảnh hưởng của việc khách hàng mua hàng trong lần truy cập đầu tiên của họ, trái ngược với các lần truy cập sau sẽ bị mất.

Nói cách khác, trước tiên hãy lấy đúng những gì bạn đang đo, sau đó lo lắng về cách bạn đang đo.


3

Đây chính xác là lý do tại sao một tiêu chí rõ ràng cần được xác định trước các thử nghiệm. Như @mdewey chỉ ra rằng có các phương pháp được thiết lập để đánh giá định kỳ một thử nghiệm, nhưng tất cả đều yêu cầu một tiêu chí dừng rõ ràng để ngăn chặn bất kỳ sự sai lệch nào đối với quyết định. Hai vấn đề quan trọng là bạn cần sửa cho nhiều so sánh và mỗi phân tích không độc lập, nhưng kết quả của nó bị ảnh hưởng rất nhiều bởi kết quả phân tích trước đó của bạn.

Để thay thế, có thể là cách tốt nhất để xác định kích thước mẫu được đặt dựa trên các đối số có liên quan về mặt thương mại.

Trước tiên, công ty nên đồng ý về sự thay đổi có liên quan về mặt thương mại trong tỷ lệ chuyển đổi là gì (nghĩa là kích thước chênh lệch cần thiết để đảm bảo tạo ra một trường hợp thương mại để thay đổi được triển khai vĩnh viễn). Không đồng ý điều này, không có điểm chuẩn hợp lý.

Khi kích thước hiệu ứng thương mại tối thiểu được xác định (lưu ý điều này có thể thay đổi theo từng trường hợp tùy thuộc vào mức độ quan trọng của bước được thử nghiệm), thì bạn đồng ý mức độ rủi ro mà công ty sẵn sàng chấp nhận vì thiếu hiệu ứng thực sự ( beta) và chấp nhận hiệu ứng sai (alpha).

Khi bạn có các số này, hãy cắm chúng vào máy tính kích thước mẫu và voila, bạn sẽ có kích thước mẫu đã đặt để đưa ra quyết định.


BIÊN TẬP

Sử dụng kích thước mẫu nhỏ và hy vọng chúng sẽ cho thấy hiệu quả đủ lớn là một nền kinh tế sai lầm (vì mục tiêu của bạn là kết quả đáng tin cậy có thể hành động thay vì tạo ra giả thuyết gây tranh cãi cho xuất bản học thuật). Giả sử lấy mẫu không thiên vị, ở các cỡ mẫu thấp, xác suất chọn ngẫu nhiên các mẫu xảy ra hoàn toàn đối với các cực trị đối diện cao hơn ở các cỡ mẫu cao. Điều này dẫn đến khả năng từ chối một giả thuyết khống cao hơn trong khi thực tế không có sự khác biệt. Vì vậy, điều này có nghĩa là đẩy qua những thay đổi không thực sự tạo ra tác động thực sự hoặc thậm chí tệ hơn là có tác động hơi tiêu cực. Đây là một cách giải thích khác về những gì @Science đang nói về khi họ nêu

"bạn đang làm cho nhiều khả năng bài kiểm tra của bạn sẽ cho bạn biết rằng có một sự khác biệt tồn tại khi thực tế không có sự khác biệt nào"

Điểm xác định trước phân tích thống kê của bạn (cho dù kích thước mẫu cố định như tôi mô tả hoặc chiến lược đánh giá nhiều lần) là bạn cân bằng hợp lý các yêu cầu của cả lỗi loại I và II. Chiến lược hiện tại của bạn dường như tập trung vào các lỗi loại I và hoàn toàn bỏ qua loại II.

Như nhiều người trả lời khác đã tuyên bố kết quả không bao giờ là kết luận, nhưng nếu bạn đã xem xét cả lỗi loại I và II và tác động của chúng đối với doanh nghiệp của bạn thì bạn sẽ có niềm tin nhất mà bạn có thể hy vọng có nên thực hiện thay đổi dựa trên kết quả hay không. Cuối cùng, việc đưa ra quyết định là về việc thoải mái với mức độ rủi ro của bạn và không bao giờ coi "sự thật" của bạn là bất biến.

Tôi bị thu hút bởi các khía cạnh khác trong thiết kế nghiên cứu của bạn có thể ảnh hưởng đến kết quả bạn nhìn thấy. Họ có thể tiết lộ một số yếu tố tinh tế không phải là những gì bạn muốn.

Là những người được chọn cho mẫu tất cả khách truy cập mới, tất cả khách truy cập quay lại hoặc là không phân biệt? Các khách hàng được thành lập có thể có xu hướng gia tăng một thứ gì đó mới lạ (vì vậy thiên về thay đổi không phải là một màu sắc cụ thể), nhưng đối với khách hàng mới, mọi thứ đều mới mẻ.

Những người thực sự nhấp vào định kỳ trong khung thời gian của nghiên cứu?

Nếu mọi người truy cập nhiều lần trong khung thời gian của nghiên cứu thì họ có được trình bày cùng một phiên bản không hoặc có được phân bổ ngẫu nhiên khi đang di chuyển không?

Nếu khách truy cập định kỳ được bao gồm có nguy cơ mệt mỏi tiếp xúc (nó không còn gây mất tập trung vì nó không còn mới)


Cảm ơn vì điều đó. Bạn đưa ra quan điểm tuyệt vời về việc đồng ý thay đổi thương mại trước khi chuyển đổi. Nhưng nhìn như với Thương mại điện tử, những thay đổi nhỏ trong chuyển đổi có thể ảnh hưởng đến doanh số, nó sẽ có giá trị khá thấp.
Công nghệ 75

Sự khác biệt tối thiểu cần thiết là nhỏ không phải là một vấn đề, nó sẽ đảm bảo rằng bạn cung cấp năng lượng phù hợp.
ReneBt

0

Thực tiễn thông thường thường ra lệnh rằng bạn quyết định kích thước mẫu trước (để kiểm soát sức mạnh thống kê của kiểm tra giả thuyết của bạn), sau đó thực hiện thử nghiệm.

Đáp lại vị trí hiện tại của bạn, có vẻ như bạn sau khi kết hợp một loạt các bài kiểm tra giả thuyết. Tôi khuyên bạn nên xem phương pháp của Fisher. Ngoài ra, có lẽ bạn sẽ muốn xem xét các phương pháp của Brown hoặc Kost để điều chỉnh phương pháp của Fisher cho các thống kê kiểm tra phụ thuộc. Như một người trả lời khác đã đề cập, chuyển đổi của khách hàng (hoặc không chuyển đổi) sẽ ảnh hưởng đến việc họ sẽ mua hàng (hoặc không) trong lần truy cập tiếp theo - bất kể nút màu gì.

Suy nghĩ lại:

  1. Thông tin và nguồn khác về các phương pháp của Fisher và các phần mở rộng của chúng có thể được tìm thấy trên bài viết Wikipedia cho phương pháp của Fisher.
  2. Tôi cảm thấy điều quan trọng là phải đề cập rằng một thí nghiệm không bao giờ thực sự kết luận. Giá trị p nhỏ không chỉ ra rằng kết quả của bạn là kết luận - chỉ có giả thuyết null là không thể dựa trên dữ liệu bạn có được.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.