Trực giác của hằng số chuẩn hóa Bayes


8

Trong vấn đề sàng lọc chụp nhũ ảnh thường được đề cập với khả năng sàng lọc là 80%, trước 10% và tỷ lệ dương tính giả là 50% hoặc các biến thể của nó, thật dễ dàng để giải thích rằng xác suất sau có điều kiện rằng sàng lọc dương tính cho thấy ung thư hiện tại chỉ là 15%. Điều này được thể hiện dễ dàng nhất bằng số đếm, với n = 1000, trường hợp ung thư thực sự = 100, ung thư được phát hiện = 80 và dương tính giả = 450. Sau đó, xác suất sàng lọc dương tính cho thấy có ung thư là dương tính thật / (dương tính thật + dương tính giả) hoặc 80 / (100 + 450) = 0,145 hoặc 15%.

Trực giác là các dương tính thật được dựa trên tổng của dương tính thật và giả bởi vì tổng của dương tính thật và giả tạo thành một tập hợp con của tất cả các kết quả. Điều này là do các phủ định sai và phủ định thực được loại trừ khỏi phép tính và do đó, tập hợp điều kiện là một tập hợp con.

Nếu chúng ta chuyển vấn đề sang trường hợp liên tục với khả năng nhị thức và beta trước, thì hằng số chuẩn hóa sẽ trở thành một tích phân, như đối với thuật ngữ tích cực thực sự (p = tỷ lệ)

01(nx)px(1-p)n-xΓ(một+b)Γ(một)Γ(b)pmột-1(1-p)b-1dp

và một thuật ngữ tương tự cho các dương tính giả.

Tuy nhiên, điều không rõ ràng là làm thế nào để khôi phục ý tưởng về một tập hợp con trong trường hợp liên tục và tôi không thể tìm thấy ai thực hiện điều này. Thay vào đó, người ta tìm thấy ngôn ngữ 1) tích phân này cung cấp hằng số để thực hiện phép tính cần thiết để có phân phối xác suất được xác định trong khoảng [0, 1] hoặc 2) tỷ lệ được gọi và giá trị của tích phân không cần thiết tìm thấy hậu thế, đặc biệt là sử dụng MCMC hoặc 3) tích phân là xác suất của bằng chứng. Giải thích cuối cùng này có vẻ gần hơn với ý tưởng của một tập hợp con, nhưng nó không được kết nối rõ ràng và rõ ràng.

Tôi đang viết một bài giới thiệu trực quan về định lý của Bayes và muốn tiếp tục ý tưởng trực quan về một tập hợp con cho xác suất có điều kiện xác định hậu thế. Vì vậy, tôi cần ngôn ngữ để giải thích cách tích phân này chỉ là sự phục hồi liên tục của tập hợp con trong trường hợp số rời rạc.

Bất kỳ đề xuất?


Câu trả lời:


4

Tôi cần phải làm điều này cho một khóa học tôi đang chuẩn bị, vì vậy tôi đã tạo ra trang web trình diễn này: Một minh chứng cho định lý của Bayes là "chọn một tập hợp con" trong trường hợp nhị thức (đảm bảo ẩn các thanh công cụ, phía dưới bên phải). Về cơ bản, nếu bạn hiển thị phân phối chung - đó chỉ làp(yθ)p(θ) -- you can see the "subsets" of the joint distribution that you need to select, which are those θ values that correspond to Y=y (whatever you observed).

The source code for that page can be found here: Rmarkdown source for page.

(I used θ for the binomial probability instead of p because p(p) looks confusing...)


2

Besides the interpretations you mention, you can think of the normalizing constant as the value of the prior predictive distribution at the observed x. If the prior predictive is discrete then this is a probability mass, and if the prior predictive is continuous it is a probability density.

The prior predictive is in the continuous case is

p(x)=Θp(θ)p(x|θ)

Which is a distribution that assigns probability mass/density to the outcomes in the sample space. Then when x is observed it is fixed at the observed x and fits in the denominator of Bayes' theorem.

However, note that with continuous distributions there is no mathematical constraint on the density value assigned to a set with measure zero (i.e., zero probability), and since any specific point on a continuous distribution indeed has measure zero then technically the value of the density on the prior predictive at exactly x can be set arbitrarily. But that aside, I think this way of visualizing the normalizing constant is fairly intuitive.

You can read more here. (Let me know if you don't have access) This too, which is a bit more modern.


1

Richard's 3-d graphic was very helpful. What I need, however, is something I can paste as graph in a manuscript. After some searching, I located this image from Westfall and Henning, Understanding Advanced Statistical Methods, Chapman & Hall/CRC, 2013.

enter image description here

Relabeling the axes as the binomial probability p on the left and the number of successes y on the right then illustrates a binomial distribution, and the face of the joint distribution then is the marginal distribution to be integrated.

Further, this joint distribution made me realize that our vocabulary for this is lacking. We use the term “marginal” for the relevant subset for the normalizing constant because that vocabulary comes from a two way contingency table with discrete data where the sum of the probabilities is written in the margins of the table. We continue to use the same vocabulary in the joint distribution continuous case, but it is not descriptive.

But the figure from Westfall and Henning makes clear that for the normalizing constant we are integrating over a “slice” of the joint distribution for the value of y, the number of successes in the binomial case. “Slice” is much clearer than marginal and this figure makes instantly clear what is the relevant subset for integration.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.