Làm thế nào để một Bayes cập nhật niềm tin của mình khi điều gì đó với xác suất 0 xảy ra?


9

Xác định "đồng xu có xác suất 1 đến đầu đất" Giả sử rằng người ta có niềm tin trước: . Tuy nhiên, sau khi tung đồng xu một lần, nó hạ cánh xuống đuôi ( "đuôi đã hạ cánh"). Làm thế nào một Bayesian nên cập nhật niềm tin của mình để giữ mạch lạc? không xác định, vì . Tuy nhiên, đối với tôi, dường như niềm tin trước đây của anh ta khá vô lý (tất nhiên xác suất 0 không có nghĩa là không thể) bằng cách nào đó anh ta có thể cập nhật niềm tin của mình theo một số quy tắc.P ( X ) = 1 E : = P ( X | E ) P ( E ) = 0X:=P(X)=1E:=P(X|E)P(E)=0

Đây chỉ là một trường hợp bệnh lý trong đó việc cập nhật Bayes không hoạt động hay tôi không biết giải pháp cho vấn đề này?


2
Một ví dụ có thể là anh ta nhận ra rằng anh ta là một người phụ nữ.
Nick Cox

6
Tôi nghĩ rằng câu hỏi này có phạm vi rộng hơn nhiều so với phân tích Bayes. Không thực sự hỏi người ta nên làm gì khi đối mặt với bằng chứng cho thấy giả định của một người là không chính xác? Tôi sẽ ngần ngại gọi những tình huống này là "bệnh hoạn" bởi vì chúng xảy ra mọi lúc. Điều thực sự sẽ là bệnh hoạn là những tình huống mà mọi người từ chối thay đổi các giả định (hoặc niềm tin) của họ khi đối mặt với bằng chứng không thể thay đổi. (Những người như vậy thường được gọi là "chính trị gia" chứ không phải là "Bayes" :-).)
whuber

@whuber Tôi là tất cả để chọc cười và khinh miệt (loại sai) các chính trị gia, nhưng khoa học cũng không miễn dịch. Planck nhận xét trong cuốn Tự truyện của mình rằng một lý thuyết mới đôi khi chỉ chiến thắng khi thế hệ cũ không chịu nghiêm túc thực hiện tất cả đã chết.
Nick Cox

@Nick Tôi chắc chắn bạn hiểu tình hình trong khoa học phức tạp hơn thế. (Vâng, tình hình trong chính trị cũng phức tạp hơn ....) Nửa thế kỷ trước, Thomas Kuhn là một trong những người đầu tiên đánh giá cao điều đó và làm sáng tỏ những lý do sâu xa hơn.
whuber

2
@whuber Đồng ý. Các nhà khoa học giỏi thay đổi suy nghĩ của họ một cách nhanh chóng khi đối mặt với logic và bằng chứng, và nhiều người trong chúng ta đã vứt bỏ nhiều ý tưởng tệ hại trước khi thậm chí cố gắng công khai với họ. (Chi tiết nhỏ: Đó là cuốn sách nổi tiếng nhất của Kuhn, nơi tôi nghĩ rằng lần đầu tiên tôi bắt gặp tài liệu tham khảo Planck.)
Nick Cox

Câu trả lời:


5

Bất kỳ xác suất sau là hợp lệ trong trường hợp này

Đây là một câu hỏi thú vị, được đưa vào lãnh thổ của các nền tảng của xác suất. Có một vài cách tiếp cận có thể có ở đây, nhưng vì những lý do mà tôi sẽ giải thích sớm, cách tiếp cận tôi ủng hộ là đưa ra định nghĩa rộng hơn về xác suất có điều kiện tương tự như định nghĩa của nó khi xử lý các biến ngẫu nhiên liên tục. (Chi tiết về phương pháp này được trình bày bên dưới.) Trong trường hợp cụ thể này, điều này dẫn đến kết luận rằng Bayesian có thể giữ bất kỳ niềm tin nào về hậu thế của , và điều này mang lại một niềm tin mạch lạc (mặc dù họ đã quan sát thấy một sự kiện mà họ tin rằng để có xác suất bằng không).X

Ưu điểm của phương pháp này là nó cung cấp phân phối sau được xác định rõ và cho phép Bayesian cập nhật niềm tin của họ có điều kiện để quan sát một sự kiện được quy định xảy ra với xác suất bằng không. Hậu thế được cập nhật về cơ bản một cách tùy tiện (bất kỳ xác suất hậu nghiệm nào cũng mạch lạc như nhau), nhưng tính linh hoạt đó không gây ngạc nhiên cho những gì đã xảy ra. Trong trường hợp này, những người Bayes khác nhau có cùng niềm tin trước đó có thể đưa ra kết luận chính xác khác nhau, do thực tế là tất cả họ đã quan sát thấy một sự kiện không có xác suất tiên nghiệm .


Xác suất có điều kiện cho các biến ngẫu nhiên liên tục: Khi chúng ta đang xử lý các biến ngẫu nhiên liên tục, hàm xác suất có điều kiện được xác định thông qua đạo hàm Radon-Nikodym và về cơ bản chỉ cần hàm thỏa mãn định luật xác suất khớp. Nếu và là các biến ngẫu nhiên liên tục (chứ không phải là các sự kiện rời rạc) trong một không gian xác suất thì chúng ta sẽ định nghĩa hàm xác suất có điều kiện là bất kỳ phép đo không âm nào hàm thỏa mãn phương trình tích phân:XE(Ω,G,P)p(x|e)

p(x)=Ep(x|e) dP(e)for all xXG.

Vì cũng được định nghĩa thông qua đạo hàm Radon-Nikodym, điều này ngầm có nghĩa là có thể là bất kỳ hàm đo lường không âm nào thỏa mãn phương trình tích phân:p(x)p(x|e)

P(XA)=AEp(x|e) dP(e) dxfor all AG.

Điều này đưa ra một giải pháp không duy nhất cho hàm xác suất có điều kiện, mặc dù trong thực tế, mọi giải pháp đều tương đương "gần như chắc chắn" (nghĩa là chúng chỉ khác nhau trên một tập kết quả có xác suất bằng 0) nên không có vấn đề gì với tính không duy nhất .

Xác định xác suất có điều kiện cho các sự kiện rời rạc: Định nghĩa chuẩn cho xác suất có điều kiện cho các sự kiện rời rạc là công thức tỷ lệ nổi tiếng, trong đó mẫu số là xác suất của sự kiện điều hòa. Rõ ràng, trong trường hợp sự kiện điều hòa có xác suất bằng không, đối tượng này không được xác định. Giải pháp rõ ràng ở đây là mở rộng định nghĩa theo cách tương tự với phương pháp được sử dụng trong trường hợp liên tục. Nghĩa là, chúng tôi xác định cặp xác suất có điều kiện và là bất kỳ cặp giá trị nào giữa 0 và một giá trị thỏa mãn phương trình:P(X|E)P(X|E¯)

P(X)=P(X|E)×P(E)+P(X|E¯)×(1P(E)).

Trong trường hợp được quy định trong câu hỏi, chúng tôi có niềm tin trước và phân phối lấy mẫu , dẫn đến . Việc thay thế các giá trị này vào phương trình trên sẽ cho:P(X)=1P(E|X)=0P(E)=0

1=P(X|E)×0+P(X|E¯)×1.

Chúng ta có thể thấy rằng phương trình này được thỏa mãn bằng cách lấy và bất kỳ . Do đó, xác suất có điều kiện (sau) có thể là bất kỳ giá trị nào giữa 0 và một. Khi chúng tôi nói rằng đây là "kết hợp", chúng tôi chỉ đơn giản có nghĩa là xác suất sau không phù hợp với các xác suất được quy định khác trong vấn đề (nghĩa là xác suất lấy mẫu trước và lấy mẫu).P(X|E¯)=10P(X|E)1P(X|E)


Tại sao cách tiếp cận này có ý nghĩa nhất: Hoàn toàn có thể phân tích Bayes có thể liên quan đến việc quan sát một sự kiện riêng biệt có xác suất bằng không được quy định trong phân phối trước. Ví dụ, trong một mô hình tiêu chuẩn về lật đồng xu, chúng tôi quy định phân phối Bernoulli cho kết quả đầu / đuôi, nhưng có thể đồng xu có thể nằm yên trên cạnh của nó (do đó không phải là đầu hoặc đuôi). Não bộ không nên bùng nổ trong trường hợp này, và do đó, theo lý luận Bayes là đương nhiên để có một cách tiến hành được xác định rõ trong trường hợp này.

Ưu điểm chính của cách tiếp cận tôi đã vạch ra là nó luôn dẫn đến ít nhất một giá trị cho phép đối với xác suất sau (nghĩa là xác suất sau được xác định rõ ). Xác suất sau không được xác định duy nhất, nhưng đó là một kết quả tự nhiên của thực tế là có một số giá trị phù hợp như nhau với quan sát lấy mẫu xác suất bằng không. Cách tiếp cận này có nghĩa là Bayes có thể tự do quy định bất kỳ xác suất hậu nghiệm nào, và điều này cũng mạch lạc như bất kỳ điều gì khác. (Hãy nhớ rằng khi chúng ta nói "mạch lạc" ở đây, chúng ta đang nói về sự gắn kết với một niềm tin trước đó quy định xác suất bằng không cho một sự kiện riêng biệt thực sự đã xảy ra, vì vậy sự gắn kết với đó không phải là một thanh cao!)

Có một lợi ích lớn khác cho cách tiếp cận này , đó là cho phép Bayesian cập nhật niềm tin của mình để đáp ứng với việc quan sát một sự kiện không có xác suất lấy mẫu theo trước, và đặc biệt, Bayesian giờ đây có thể sửa đổi niềm tin của mình để họ không còn quy định xác suất bằng không cho sự kiện này . Trong ví dụ bạn đưa ra, Bayesian có niềm tin trước đó rằng là gần như chắc chắn, mua sau đó quan sát một sự kiện với xác suất lấy mẫu bằng không có điều kiện về sự kiện này. Bây giờ Bayesian có thể tự do cập nhật niềm tin của mình lên xác suất sau cho không phải là một (và do đó xác suất hậu nghiệm tương ứng choXX ˉ XX¯đó không phải là không). Vì vậy, về bản chất, Bayesian bây giờ có thể nói "Ôi chết tiệt! Đó là một sự ngớ ngẩn trước đây! Hãy để tôi cập nhật niềm tin của mình vào sự kiện đó để nó không còn xảy ra gần như chắc chắn nữa!" Hơn nữa, đây không phải là một số thay đổi đặc biệt , mà là một cập nhật "mạch lạc" hợp pháp được thực hiện theo định lý của Bayes.


3

Có một giả định ngầm trong tất cả các lý do, Bayes hay nói cách khác, rằng chúng ta biết mọi thứ có thể xảy ra và chiếm nó. Nếu một cái gì đó xảy ra là không thể theo mô hình, nó chỉ có nghĩa là giả định đó là sai. Điều nguyên tắc cần làm là quay lại và mở rộng mô hình, và bắt đầu lại. Ít nhất là trong khuôn khổ Bayes, quá trình này tương đối dễ dàng để chính thức hóa - thay vì suy luận trong một mô hình duy nhất, người ta sẽ suy luận trong một tập hợp các mô hình.

Tại một số điểm, khả năng con người của chúng ta để mô hình lồng trong các mô hình phải hết. Ngay cả với trợ giúp tự động (ví dụ: máy tính hoặc bất cứ thứ gì), phải có giới hạn trên đối với sự phức tạp của "mẹ của tất cả các mô hình". Tôi không biết phải làm gì trong hoàn cảnh đó, nhưng chúng tôi chắc chắn ở rất xa đó, khi chúng tôi làm việc với các mô hình tham số điển hình được tìm thấy trong các ứng dụng.


2

Điều này có liên quan đến lĩnh vực logic. đặc biệt, một tuyên bố sai hàm ý tất cả các tuyên bố khác, đúng hoặc sai. Trong kịch bản của bạn là một tuyên bố sai. Điều này có nghĩa là chúng ta có thể viết cho bất kỳ mệnh đề nào khác . Ví dụ: chúng ta có (nó ngụ ý đuôi) và (nó cũng không có đuôi)!XXSSXEXEc

Điều này cũng phù hợp với giải pháp của Ben (đặt phía sau thành bất kỳ giá trị nào bạn muốn). Rõ ràng điều này không thực sự hữu ích trong các ứng dụng mặc dù. Vì tôi khá tự tin vì không cần bất kỳ khuôn khổ toán học nào để tạo ra bất kỳ kết quả nào tôi muốn.

Điều đó có nghĩa là gì, người ta không nên đưa các tuyên bố sai đã biết vào xác suất trước đó của họ. Điều này cũng giống như người ta không nên sử dụng các tuyên bố sai về dữ liệu. Về mặt xử lý các loại vấn đề "thiên nga đen", chúng ta có thể giải quyết vấn đề này bằng cách chỉ định một số cơ hội nhỏ nhưng không khác biệt rằng "các giả định làm việc" của chúng ta là sai. Nếu bạn gọi tuyên bố này là là "các giả định làm việc của tôi là chính xác" và đặt nó trước bằng . Có một số tình huống không thể xảy ra theo giả định hoạt động, điều đó có nghĩa là khả năng đối với một số giá trị của "dữ liệu" tồn tại trong vùng "không thể"Awp(Aw)=1ϵp(dDimpossible|Aw)=0dDimpossiblekhi các giả định làm việc giữ. Gọi sự kiện này . Điều này cũng có nghĩa là . Chúng tôi giả sử rằng (nghĩa là dữ liệu "không thể" có thể nếu giả định làm việc sai). Và cuối cùng là .Q:=dDimpossiblep(Qc|Aw)=1p(Q|Aw)=1p(Q|Awc)=δ>0p(Qc|Awc)=1p(Q|Awc)=1δ

Bây giờ chúng tôi có hai kịch bản. Đầu tiên là dữ liệu là "bình thường" (có nghĩa là là đúng)Qc

p(Aw|Qc)=p(Aw)p(Qc|Aw)p(Aw)p(Qc|Aw)+p(Awc)p(Qc|Awc)=1ϵ1ϵ+ϵ(1δ)=1ϵ1δϵ>1ϵ

Thứ hai là dữ liệu là "không thể" (nghĩa là là đúng)Q

p(Aw|Q)=p(Aw)p(Q|Aw)p(Aw)p(Q|Aw)+p(Awc)p(Q|Awc)=00+ϵδ=0.

Bây giờ hy vọng điều này rất rõ ràng cho thấy rằng nếu các giả định của bạn được thỏa mãn và bạn đã có xác suất trước rất cao, thì hậu thế ít nhất là cao (và thường cao hơn). Vì vậy, bất kỳ giá trị nào cho bạn sử dụng để thể hiện "về cơ bản là không thể" trước khi xem dữ liệu, bạn nên sử dụng một giá trị nhỏ hơn sau khi xem các dự đoán được xác nhận.ϵ

Khi thực hiện tính toán, giả sử sẽ không khiến bạn lạc lối. Vì vậy, bạn "hấp thụ" vào thông tin trướcp(Aw|Qc)=1Aw,Qc

Bây giờ, những gì về những điều không thể xảy ra? Sau đó, bạn cần phải giải nén và thay đổi khả năng của bạn và trước theo những gì sai với giả định của bạn.


1
Đây là một câu trả lời thú vị (+1). Tôi đã có quyền tự do thực hiện một sự điều chỉnh nhỏ để giải thích cho trường hợp , không được loại trừ trong các điều kiện tiền đề của bạn. Nếu bạn định áp đặt hạn chế để có được sự bất bình đẳng nghiêm ngặt, vui lòng chỉnh sửa cho phù hợp. γ < 1γ=1γ<1
Ben - Hồi phục lại

Tôi nhận ra rằng trong câu trả lời ban đầu của tôi. Vì điều này có nghĩa là bất bình đẳng nên nghiêm ngặt. delta > 0γ=1δδ>0
xác suất
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.