Tại sao MAP hội tụ đến MLE?


8

Trong "Học máy: Quan điểm xác suất" của Kevin Murphy, chương 3.2, tác giả đã chứng minh việc học khái niệm Bayes trên một ví dụ gọi là "trò chơi số": Sau khi quan sát mẫu từ , chúng tôi muốn chọn một giả thuyết mô tả đúng nhất quy tắc tạo ra các mẫu. Ví dụ: "số chẵn" hoặc "số nguyên tố".N{1,...,100}h

Các ước tính khả năng tối đa a-posteriori và tối đa được xác định là:

h^MAP=argmaxh p(D|h)p(h)=argmaxh[logp(D|h)+logp(h)],

h^MLE=argmaxh p(D|h)=argmaxhlogp(D|h),

Trong đó p(h) đại diện cho xác suất trước của các giả thuyết khác nhau và hậu thế được định nghĩa là:

p(D|h)=[1|h|]N,

iff Dh , nghĩa là khả năng lấy mẫu thống nhất với sự thay thế từ giả thuyết h sẽ mang lại tập D . Theo trực giác, điều đó có nghĩa là hậu thế cao nhất cho các giả thuyết "nhỏ nhất". Ví dụ: giả thuyết " lũy thừa 2" giải thích các quan sát \ {2,4,8,16,64 \}{2,4,8,16,64} tốt hơn "số chẵn".

Tất cả điều này là rõ ràng. Tuy nhiên, tôi bối rối về câu sau (mặc dù theo trực giác nó có ý nghĩa hoàn hảo):

Vì thuật ngữ khả năng phụ thuộc theo cấp số nhân vào và trước đó không đổi, vì chúng tôi nhận được càng nhiều dữ liệu, ước tính MAP hội tụ theo ước tính khả năng tối đa.N

Đúng là khả năng phụ thuộc theo cấp số nhân của , tuy nhiên, số mũ được tính theo khoảng và vì , , nên khả năng thực sự sẽ biến mất.N(0,1)NxN0

Tại sao MAP hội tụ đến MLE trong trường hợp này?


1
Đây là hệ quả của định lý Bernstein - von Mises: nber.org/WNE/Slides7-31-07/slides_7_bayes.pdf (bắt đầu tại slide 9.) Ngoài ra: andrewgelman.com/2017/11/27/asymptotively-we- tất cả đã chết .
jbowman

Cảm ơn các tài liệu tham khảo. Tuy nhiên, làm thế nào để họ giải thích ví dụ mâu thuẫn này?
Jan Kukacka

Câu trả lời:


5

Có hai vấn đề ở đây, đầu tiên, tại sao MAP lại hội tụ với MLE nói chung (nhưng không phải luôn luôn) và vấn đề "khả năng biến mất".

Đối với vấn đề đầu tiên, chúng tôi đề cập đến định lý Bernstein - von Mises. Bản chất của nó là, khi kích thước mẫu tăng lên, thông tin tương đối có trong dữ liệu trước và trong dữ liệu thay đổi theo hướng có lợi cho dữ liệu, do đó, phần sau trở nên tập trung hơn vào ước tính chỉ dữ liệu của MLE và đỉnh thực sự hội tụ đến MLE (với sự cảnh báo thông thường mà phải có những giả định nhất định phải được đáp ứng.) Xem trang Wikipedia để biết tổng quan ngắn gọn.

Đối với vấn đề thứ hai, điều này xảy ra do bạn chưa bình thường hóa mật độ sau. Theo quy tắc của Bayes:

P(h|D)=P(D|h)p(h)p(D)

và, mặc dù là , như bạn quan sát, . Để cụ thể hơn một chút, nếu chúng ta giả sử hai giả thuyết và , chúng ta sẽ tìm thấy hậu thế bằng cách:P(D|h)0nP(D)h1h2

P(h1|D)=P(D|h1)p(h1)P(D|h1)p(h1)+P(D|h2)p(h2)

Cả tử số và mẫu số đều có các số hạng được nâng lên lũy thừa , vì vậy cả là , nhưng rõ ràng rằng việc chuẩn hóa cần thiết sẽ khắc phục vấn đề mà điều này sẽ gây ra.N0N

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.