Trong "Học máy: Quan điểm xác suất" của Kevin Murphy, chương 3.2, tác giả đã chứng minh việc học khái niệm Bayes trên một ví dụ gọi là "trò chơi số": Sau khi quan sát mẫu từ , chúng tôi muốn chọn một giả thuyết mô tả đúng nhất quy tắc tạo ra các mẫu. Ví dụ: "số chẵn" hoặc "số nguyên tố".
Các ước tính khả năng tối đa a-posteriori và tối đa được xác định là:
Trong đó đại diện cho xác suất trước của các giả thuyết khác nhau và hậu thế được định nghĩa là:
iff , nghĩa là khả năng lấy mẫu thống nhất với sự thay thế từ giả thuyết sẽ mang lại tập . Theo trực giác, điều đó có nghĩa là hậu thế cao nhất cho các giả thuyết "nhỏ nhất". Ví dụ: giả thuyết " lũy thừa 2" giải thích các quan sát \ {2,4,8,16,64 \} tốt hơn "số chẵn".
Tất cả điều này là rõ ràng. Tuy nhiên, tôi bối rối về câu sau (mặc dù theo trực giác nó có ý nghĩa hoàn hảo):
Vì thuật ngữ khả năng phụ thuộc theo cấp số nhân vào và trước đó không đổi, vì chúng tôi nhận được càng nhiều dữ liệu, ước tính MAP hội tụ theo ước tính khả năng tối đa.
Đúng là khả năng phụ thuộc theo cấp số nhân của , tuy nhiên, số mũ được tính theo khoảng và vì , , nên khả năng thực sự sẽ biến mất.
Tại sao MAP hội tụ đến MLE trong trường hợp này?