Tại sao phá vỡ mẫu số trong Định lý Bayes?


23

(Tôi là người mới về thống kê. Tôi là nhà toán học và lập trình viên và tôi đang cố gắng xây dựng một cái gì đó giống như bộ lọc thư rác Bayes ngây thơ.)

Tôi đã nhận thấy ở nhiều nơi rằng mọi người có xu hướng phá vỡ mẫu số trong phương trình từ Định lý Bayes. Vì vậy, thay vì điều này:

P(A|B)P(B)P(A)

Chúng tôi được trình bày với điều này:

P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

Bạn có thể thấy rằng quy ước này được sử dụng trong bài viết Wikipedia này và trong bài viết sâu sắc này của Tim Peters.

Tôi bị bối rối bởi điều này. Tại sao mẫu số bị phá vỡ như thế này? Làm thế nào mà giúp mọi thứ? Điều gì quá phức tạp khi tính toán , trong trường hợp bộ lọc thư rác sẽ là gì?P(A)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not


Tôi nghi ngờ rằng câu trả lời là tên miền cụ thể (nghĩa là cụ thể cho các bộ lọc thư rác). Nếu bạn có thể tính toán các thành phần P (A | B), v.v. thì bạn sẽ có thể tính toán P (A) đơn giản hơn như bạn đã nêu. Hoặc, có lẽ câu trả lời liên quan đến sư phạm để người đọc hiểu mối quan hệ giữa P (A) và sự phân rã của nó theo P (A | B), P (B), v.v.

1
Tôi không có câu trả lời mạnh mẽ, nhưng tôi có thể nói rằng tôi đã phạm phải những sai lầm ngu ngốc trong các bài kiểm tra khi tôi có thể đơn giản cắm givens vào mẫu số rõ ràng, nhưng tôi nghĩ rằng tôi biết P (A) và tôi đã sai.
Wayne

Câu trả lời:


16

Câu trả lời ngắn gọn cho câu hỏi của bạn là "hầu hết thời gian chúng ta không biết P (phô mai) là gì và thường rất khó để tính toán."

Câu trả lời dài hơn tại sao Quy tắc / Định lý của Bayes thường được nêu theo cách bạn viết là bởi vì trong các vấn đề Bayes chúng ta có - ngồi trong lòng chúng ta - một phân phối trước (P (B) ở trên) và khả năng (P (A | B), P (A | notB) ở trên) và đây là một vấn đề nhân tương đối đơn giản để tính toán sau (P (B | A)). Đi đến những rắc rối để phát lại P (A) ở dạng tóm tắt của nó là nỗ lực có thể được chi tiêu ở nơi khác.

Nó có vẻ không quá phức tạp trong ngữ cảnh của một email bởi vì, như bạn đã lưu ý đúng, đó chỉ là P (phô mai), phải không? Vấn đề là với các vấn đề Bayes trên chiến trường liên quan nhiều hơn, mẫu số là một tích phân khó coi, có thể có hoặc không có giải pháp dạng đóng. Trên thực tế, đôi khi chúng ta cần các phương pháp Monte Carlo tinh vi chỉ để tính gần đúng tích phân và đảo các con số có thể là một nỗi đau thực sự ở phía sau.

Nhưng quan trọng hơn, chúng ta thường không quan tâm P (phô mai) là gì. Hãy nhớ rằng, chúng tôi đang cố gắng trau dồi niềm tin của mình về việc email có phải là thư rác hay không và không quan tâm đến việc phân phối dữ liệu cận biên (P (A), ở trên). Dù sao, nó chỉ là hằng số chuẩn hóa, không phụ thuộc vào tham số; hành động tổng kết rửa sạch mọi thông tin chúng ta có về tham số. Hằng số là một mối phiền toái để tính toán và cuối cùng là không liên quan khi nói đến niềm tin của chúng ta về việc liệu thư rác của email có hay không. Đôi khi chúng tôi có nghĩa vụ phải tính toán nó, trong trường hợp đó cách nhanh nhất để làm điều đó là với thông tin chúng tôi đã có: trước và khả năng.


Ai đó có thể cung cấp và ví dụ về 'một tích phân khó coi, có thể có hoặc không có giải pháp dạng đóng', có thể được sử dụng trong một số vấn đề không?
PaulG

8

Một lý do để sử dụng quy tắc xác suất tổng là chúng ta thường xử lý các xác suất thành phần trong biểu thức đó và thật đơn giản để tìm xác suất cận biên bằng cách chỉ cần cắm các giá trị. Để minh họa điều này, hãy xem ví dụ sau trên Wikipedia:

Một lý do khác là nhận ra các hình thức tương đương của Quy tắc Bayes bằng cách thao túng biểu thức đó. Ví dụ:

P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

Chia cho RHS theo tử số:

P(B|A)=11+P(A|¬B)P(A|B)P(¬B)P(B)

Đây là một hình thức tương đương tốt đẹp cho Quy tắc của Bayes, thậm chí còn được xử lý khéo léo hơn bằng cách trừ biểu thức này khỏi biểu thức ban đầu để có được:

P(¬B|A)P(B|A)=P(A|¬B)P(A|B)P(¬B)P(B)

Đây là Rule Bayes' nói về Odds, tức là sau tỷ lệ cược chống lại B = Bayes yếu tố chống lại lần B trước khi tỷ lệ cược chống lại B. (Hoặc bạn có thể đảo ngược nó để có được một biểu hiện về mặt tỷ lệ cược cho B.) Yếu tố Bayes là tỷ lệ khả năng của các mô hình của bạn. Vì chúng tôi không chắc chắn về cơ chế tạo dữ liệu cơ bản, chúng tôi quan sát dữ liệu và cập nhật niềm tin của mình.

Tôi không chắc nếu bạn thấy điều này hữu ích, nhưng hy vọng nó không gây trở ngại; rõ ràng bạn nên làm việc với biểu thức phù hợp nhất với kịch bản của bạn. Có lẽ ai đó khác có thể tham gia với lý do thậm chí tốt hơn.


Bạn có thể tiến thêm một bước và ghi nhật ký. Sau đó, bạn có tỷ lệ log-posterior = tỷ lệ log-trước + tỷ lệ khả năng đăng nhập
xác suất

6

Các câu trả lời trước đủ chi tiết, nhưng một cách trực quan để xem tại sao (tức là dinominator trong định lý Bayes) được chia thành hai trường hợp.P(A)

Thật khó để bình luận về gì mà không có bất kỳ kiến ​​thức nào cho dù email là ham hay spam . Bạn đúng là "phô mai" xuất hiện trong thư rác cũng như trong giăm bông, nhưng nếu bạn nhìn vào xác suất xuất hiện của "phô mai" thì cho rằng email là giăm bông ( , là đại diện cho giăm bông ), bạn chắc chắn có thể nói rất nhiều về nó. Ít nhất trong trường hợp của tôi, tôi không nhận được nhiều thư rác có chứa phô mai, do đó, trong trường hợp của tôi, sẽ cao (90%). Tương tự, sẽ thấp trong trường hợp của tôi, vì không có nhiều thư rác chứa từ phô mai. Về cơ bản, chúng tôi cố gắng xem xét sự xuất hiện của sự kiện quan tâm (ở đâyP ( A | B ) B P ( A | B ) P ( A | ¬ B ) B ¬ BP(A)P(A|B)BP(A|B)P(A|¬B)Một ) phân chia thành hai rời nhau sự kiện, và . Nếu chúng ta phân vùng A thành hai sự kiện riêng biệt, chúng ta có thể nói rõ hơn về xác suất có điều kiện và . Để có được tổng xác suất, chúng ta cũng cần phải cân nhắc các xác suất có điều kiện cho sự xuất hiện của các sự kiện mà chúng ta điều kiện là và . Do đó biểu thức cuối cùng B¬BP(A|B)P(A|¬B)P(B)P(¬B)

P(A)=P(A|B)P(B)+P(A|¬B)P(¬B)
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.