Mô hình Bayes phân cấp (?)


12

Xin lỗi vì sự vô dụng của tôi về biệt ngữ thống kê :) Tôi đã tìm thấy một vài câu hỏi ở đây có liên quan đến quảng cáo và nhấp qua tỷ lệ. Nhưng không ai trong số họ giúp tôi rất nhiều với sự hiểu biết của tôi về tình hình thứ bậc của tôi.

Có một câu hỏi liên quan Đây có phải là những đại diện tương đương của cùng một mô hình Bayes phân cấp không? , nhưng tôi không chắc liệu họ có thực sự có vấn đề tương tự không. Một câu hỏi khác Các nhà tài trợ cho mô hình nhị thức Bayes phân cấp đi sâu vào chi tiết về các siêu nhân, nhưng tôi không thể ánh xạ giải pháp của họ cho vấn đề của tôi

Tôi có một vài quảng cáo trực tuyến cho một sản phẩm mới. Tôi để quảng cáo chạy trong một vài ngày. Tại thời điểm đó, đủ người đã nhấp vào quảng cáo để xem cái nào nhận được nhiều nhấp chuột nhất. Sau khi loại bỏ tất cả trừ cái nhấp chuột nhiều nhất, tôi để cái đó chạy trong vài ngày nữa để xem mọi người thực sự mua bao nhiêu sau khi nhấp vào quảng cáo. Tại thời điểm đó, tôi biết nếu đó là một ý tưởng tốt để chạy quảng cáo ở nơi đầu tiên.

Số liệu thống kê của tôi rất ồn ào vì tôi không có nhiều dữ liệu vì tôi chỉ bán một vài mặt hàng mỗi ngày. Do đó, thật khó để ước tính có bao nhiêu người mua thứ gì đó sau khi xem quảng cáo. Chỉ có khoảng một trong mỗi 150 lần nhấp chuột dẫn đến mua hàng.

Nói chung, tôi cần biết liệu tôi có bị mất tiền trên mỗi quảng cáo càng sớm càng tốt hay không bằng cách nào đó làm mịn số liệu thống kê của mỗi nhóm quảng cáo với thống kê toàn cầu trên tất cả các quảng cáo.

  • Nếu tôi đợi cho đến khi mọi quảng cáo đã thấy đủ số lần mua, tôi sẽ phá vỡ vì mất quá nhiều thời gian: thử nghiệm 10 quảng cáo tôi cần chi nhiều tiền gấp 10 lần để số liệu thống kê cho mỗi quảng cáo đủ đáng tin cậy. Đến lúc đó tôi có thể đã mất tiền.
  • Nếu tôi mua trung bình trên tất cả các quảng cáo, tôi sẽ không thể loại bỏ những quảng cáo không hoạt động tốt.

Tôi có thể sử dụng tỷ lệ mua toàn cầu ( N $ sub phân phối không? Điều đó có nghĩa là tôi càng có nhiều dữ liệu cho mỗi quảng cáo, số liệu thống kê cho quảng cáo đó càng độc lập. Nếu chưa có ai nhấp vào quảng cáo, tôi cho rằng mức trung bình toàn cầu là phù hợp.perctôiTôick)mộtndbạnSeTôitmộtSmộtprTôiorfor

Tôi sẽ chọn phân phối nào cho việc đó?

Nếu tôi đã có 20 lần nhấp vào A và 4 lần nhấp vào B, làm thế nào tôi có thể mô hình hóa điều đó? Cho đến nay tôi đã tìm ra rằng một phân phối nhị thức hoặc Poisson có thể có ý nghĩa ở đây:

  • purchase_rate ~ poisson (?)
  • (purchase_rate | group A) ~ poisson (ước tính tỷ lệ mua hàng chỉ dành cho nhóm A?)

Nhưng tôi phải làm gì tiếp theo để thực sự tính toán purchase_rate | group A. Làm cách nào để tôi cắm hai bản phân phối lại với nhau để có ý nghĩa cho nhóm A (hoặc bất kỳ nhóm nào khác).

Tôi có phải phù hợp với một mô hình đầu tiên? Tôi có dữ liệu mà tôi có thể sử dụng để "đào tạo" một mô hình:

  • Quảng cáo A: 352 lần nhấp, 5 lần mua
  • Quảng cáo B: 15 lần nhấp, 0 lần mua
  • Quảng cáo C: 3519 lần nhấp, 130 lần mua

Tôi đang tìm cách để ước tính xác suất của bất kỳ một trong các nhóm. Nếu một nhóm chỉ có một vài datapoint, về cơ bản tôi muốn quay trở lại mức trung bình toàn cầu. Tôi biết một chút về số liệu thống kê Bayes và đã đọc rất nhiều tệp PDF của những người mô tả cách họ mô hình hóa bằng cách sử dụng suy luận Bayes và các linh mục liên hợp, v.v. Tôi nghĩ rằng có một cách để làm điều này đúng nhưng tôi không thể tìm ra cách mô hình hóa nó một cách chính xác.

Tôi sẽ rất vui về những gợi ý giúp tôi hình thành vấn đề của mình theo cách Bayes. Điều đó sẽ giúp ích rất nhiều cho việc tìm kiếm các ví dụ trực tuyến mà tôi có thể sử dụng để thực sự thực hiện điều này.

Cập nhật:

Cảm ơn rất nhiều vì đã đáp ứng. Tôi bắt đầu hiểu nhiều hơn và nhiều hơn một chút về vấn đề của tôi. Cảm ơn bạn! Hãy để tôi hỏi một vài câu hỏi để xem bây giờ tôi có hiểu vấn đề hơn không:

Vì vậy, tôi giả sử các chuyển đổi được phân phối dưới dạng phân phối Beta và phân phối Beta có hai tham số, b .mộtb

các 112 tham số là siêu đường kính, vậy chúng là tham số nào trước? Vì vậy, cuối cùng tôi đặt số lượng chuyển đổi và số lần nhấp làm tham số phân phối Beta của mình?12

Tại một số thời điểm khi tôi muốn so sánh các quảng cáo khác nhau, vì vậy tôi sẽ tính . Làm thế nào để tôi tính toán từng phần của công thức đó?P(conversion|ad=X)=P(ad=X|conversion)P(conversion)P(ad=X)

  • Tôi nghĩ được gọi là khả năng, hay "chế độ" của bản phân phối Beta. Vì vậy mà của alpha - 1P(ad=X|conversion) , vớiαβlà các thông số của phân phối của mình. Nhưng giá trị cụ thể củaαβở đây là các tham số cho phân phối chỉ dành cho quảng cáoX, phải không? Trong trường hợp đó, có phải chỉ là số lần nhấp và chuyển đổi mà quảng cáo này đã thấy? Hoặc có bao nhiêu lần nhấp / chuyển đổi màtất cảquảng cáo đã thấy?α1α+β2αβαβX

  • Sau đó, tôi nhân với ưu tiên, đó là P (chuyển đổi), trong trường hợp của tôi chỉ là Jeffreys trước, không có thông tin. Liệu trước đó có giữ nguyên như tôi nhận được nhiều dữ liệu hơn không?

  • Tôi chia cho , đó là khả năng cận biên, vì vậy tôi tính tần suất quảng cáo này đã được nhấp?P(mộtd)

Khi sử dụng trước Jeffreys, tôi cho rằng tôi bắt đầu từ con số 0 và không biết gì về dữ liệu của mình. Đó là trước "được gọi là" không thông tin ". Khi tôi tiếp tục tìm hiểu về dữ liệu của mình, tôi có cập nhật trước không?

Khi nhấp chuột và chuyển đổi, tôi đã đọc rằng tôi phải "cập nhật" bản phân phối của mình. Điều này có nghĩa là các tham số phân phối của tôi thay đổi hay các thay đổi trước đó? Khi tôi nhận được một nhấp chuột cho quảng cáo X, tôi có cập nhật nhiều hơn một phân phối không? Nhiều hơn một trước?

Câu trả lời:


9

Khi bạn trực giác, một cách rất chung để giải quyết câu hỏi của bạn là xây dựng mô hình Bayes phân cấp (đa cấp). Mô hình có ba phần, như minh họa dưới đây.

Mô hình

Mô hình Bayes phân cấp cho tỷ lệ chuyển đổi quảng cáo

  1. Ở cấp độ dân số, chúng tôi mô hình xác suất chuyển đổi trong dân số quảng cáo mà từ đó bộ quảng cáo được thử nghiệm cụ thể của bạn được lấy mẫu. Người ta có thể sửa các tham số dân số và sử dụng chúng làm ưu tiên cho cấp độ thứ hai, như đã được Neil lưu ý trước đó. Ngoài ra, chúng ta có thể đặt ưu tiên cho chính các tham số dân số, điều này mang lại lợi thế bổ sung mà giờ đây chúng ta có thể thể hiện sự không chắc chắn của mình về các tham số dân số dưới ánh sáng của dữ liệu. Chúng ta hãy tiếp tục con đường này và đặt một trước trên giá trị trung bình dân số μGa ( bước sóng | một 0 , bN(μ|μ0,η0)μ về độ chính xác dân số (nghĩa là phương sai nghịch đảo). Một khuếch tán trước có thể thu được bằng cách sử dụng μ 0 = 0 , η 0 = 0.1 , a 0 = 1 , b 0 = 1 , đảm bảo suy luận sau của chúng ta sẽ bị chi phối bởi dữ liệu.Ga(λ|một0,b0)μ0= =0,η0= =0,1,một0= =1,b0= =1

  2. Ở cấp độ quảng cáo riêng lẻ, chúng tôi có thể mô hình xác suất chuyển đổi của quảng cáo j đã cho dưới dạng phân phối thông thường. Như vậy, đối với mỗi quảng cáo j , các logit khả năng chuyển đổi ρ j : = logit ( π j ) được mô phỏng như N ( ρ j | L , λ ) .πjjjρj: =logit(πj)N(ρj|μ,λ)

  3. Cuối cùng, ở mức độ dữ liệu quan sát, chúng tôi mô hình số chuyển đổi cho quảng cáo j như Bin ( k j | σ ( ρ j ) , n j ) , nơi σ ( ρ j ) sử dụng sigmoid chuyển dịch một logit tỷ lệ trở lại thành một xác suất và trong đó n j là số lần nhấp vào quảng cáo j .kjjThùng rác(kj|σ(ρj),nj)σ(ρj)njj

Dữ liệu

Ví dụ: hãy lấy dữ liệu bạn đã đăng trong câu hỏi ban đầu của bạn,

Quảng cáo A: 352 lần nhấp, 5 lần mua

Quảng cáo B: 15 lần nhấp, 0 lần mua

Quảng cáo C: 3519 lần nhấp, 130 lần mua

mà chúng tôi dịch thành: n1= =352,k1= =5,n2= =15,k2= =0,Giáo dục

Sự suy luận

Đảo ngược mô hình này có nghĩa là để có được các phân phối sau cho các tham số mô hình của chúng tôi. Ở đây, tôi đã sử dụng một cách tiếp cận Bayes đa dạng để mô hình đảo ngược, phương pháp này hiệu quả hơn về mặt tính toán so với các sơ đồ lấy mẫu ngẫu nhiên như MCMC. Tôi đã vẽ các kết quả dưới đây.

Dữ liệu và kết quả sau

Hình vẽ cho thấy ba bảng. (a) Một hình ảnh đơn giản về dữ liệu mẫu mà bạn cung cấp. Các thanh màu xám đại diện cho số lần nhấp, các thanh màu đen hiển thị số lượng chuyển đổi. (b) Phân phối hậu quả dẫn đến tỷ lệ chuyển đổi trung bình dân số. Khi chúng ta quan sát nhiều dữ liệu hơn, điều này sẽ ngày càng chính xác hơn. (c) Khoảng xác suất sau trung tâm 95% (hoặc khoảng tin cậy) của tỷ lệ chuyển đổi sau cụ thể theo quảng cáo.

Bảng cuối cùng minh họa hai tính năng chính của cách tiếp cận Bayes đối với mô hình phân cấp. Đầu tiên, độ chính xác của hậu thế phản ánh số lượng điểm dữ liệu cơ bản. Ví dụ: chúng tôi có tương đối nhiều điểm dữ liệu cho quảng cáo C; do đó, hậu thế của nó chính xác hơn nhiều so với các quảng cáo khác.

Thứ hai, suy luận cụ thể về quảng cáo được thông báo bởi kiến ​​thức về dân số. Nói cách khác, hậu thế dành riêng cho quảng cáo dựa trên dữ liệu của toàn bộ nhóm, một hiệu ứng được gọi là thu hẹp đối với dân số . Ví dụ: chế độ sau (vòng tròn đen) của quảng cáo A cao hơn nhiều so với tỷ lệ chuyển đổi theo kinh nghiệm của nó (màu xanh). Điều này là do tất cả các quảng cáo khác có chế độ sau cao hơn và do đó chúng tôi có thể có được ước tính tốt hơn về sự thật mặt đất bằng cách thông báo cho các ước tính cụ thể về quảng cáo của chúng tôi theo nhóm. Chúng ta càng có ít dữ liệu về một quảng cáo cụ thể, thì phần sau của nó sẽ bị ảnh hưởng bởi dữ liệu từ các quảng cáo khác.

Tất cả các ý tưởng bạn mô tả trong câu hỏi ban đầu của bạn được thực hiện một cách tự nhiên trong mô hình trên, minh họa tiện ích thực tế của một thiết lập Bayes hoàn toàn.


Kay, cảm ơn bạn đã trả lời chi tiết của bạn. Tôi hiểu câu trả lời hơi cũ nhưng bạn có phiền khi chia sẻ mã đi kèm nếu bạn đã giữ nó không? Tôi đang cố gắng học Mô hình Bayes phân cấp nhưng
chật

@Kay, cảm ơn vì câu trả lời thú vị, bạn có thể vui lòng thêm một số tham chiếu đến các mô hình Bayes phân cấp không? Cảm ơn!
dùng511005

1
Xin chào @Zhubarb, user511005, đây là một liên kết đến bài viết mô tả mô hình trên: scTHERirect.com/science/article/pii/S1053811913002371 Tôi đã giới thiệu ngắn gọn về suy luận đa dạng ở đây: people.inf.ethz.ch/ bkay / talk / Broderen_2013_03_22.pdf
Kay Broderen

2

p

pmộtmột'bb'

một'b'(12,12)một',b'

pmột,b


Trả lời các chỉnh sửa của bạn:

pmộtbppmộtb

Bản cập nhật Bayes là

P(px)P(p)P(xp)

xpmộtbmộtbp

Ưu tiên của Jeffreys không giống với ưu tiên không thông tin trước, nhưng tôi tin rằng nó tốt hơn trừ khi bạn có lý do chính đáng để sử dụng nó. Hãy hỏi một câu hỏi khác nếu bạn muốn bắt đầu một cuộc thảo luận về điều đó.


Cảm ơn vì đã phản hồi! Tôi đã cập nhật câu hỏi ban đầu của mình vì tôi đã hết các ký tự trong hộp bình luận này. Sẽ thật tuyệt nếu bạn có thể đưa ra một số phản hồi cho một số chi tiết tôi đã viết trong bản cập nhật.
Mika Tiihonen
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.