Hãy xem xét các Bayesian sau . Không có triệu chứng, mức tối đa của nó xảy ra ở ước tính MLE , chỉ tối đa hóa khả năng .θ argmin θ
Tất cả những khái niệm này là linh mục của Bay Bay, tối đa hóa khả năng Âm thanh siêu nguyên tắc và không hề độc đoán. Không có một bản ghi trong tầm nhìn.
Tuy nhiên, MLE giảm thiểu sự phân kỳ KL giữa phân phối thực và , nghĩa là, nó giảm thiểu
Woah đã làm những bản ghi này đến từ đâu? Tại sao phân kỳ KL nói riêng?
Ví dụ, tại sao việc giảm thiểu một phân kỳ khác nhau không tương ứng với các khái niệm siêu nguyên tắc và có động lực của các hậu thế Bayes và tối đa hóa khả năng ở trên?
Dường như có một cái gì đó đặc biệt về phân kỳ KL và / hoặc nhật ký trong bối cảnh này. Tất nhiên, chúng ta có thể giơ tay lên không trung và nói rằng đó chỉ là cách toán học. Nhưng tôi nghi ngờ có thể có một số trực giác hoặc mối liên hệ sâu sắc hơn để khám phá.