Tại sao hậu thế Bayes tập trung xung quanh bộ giảm thiểu phân kỳ KL?

Hãy xem xét các Bayesian sau . Không có triệu chứng, mức tối đa của nó xảy ra ở ước tính MLE , chỉ tối đa hóa khả năng . $\theta\mid X$ $\hat \theta$ $\operatorname{argmin}_\theta\, f_\theta(X)$

Tất cả những khái niệm này là linh mục của Bay Bay, tối đa hóa khả năng Âm thanh siêu nguyên tắc và không hề độc đoán. Không có một bản ghi trong tầm nhìn.

Tuy nhiên, MLE giảm thiểu sự phân kỳ KL giữa phân phối thực và , nghĩa là, nó giảm thiểu $\tilde f$ $f_\theta(x)$

K L (\tilde{f} ∥ f_{θ}) = \int_{- \infty}^{+ \infty} \tilde{f} (x) [\log \tilde{f} (x) - \log f_{θ} (x)] d x

$KL(\tilde f \parallel f_\theta) = \int_{-\infty}^{+\infty} \tilde f(x) \left[ \log \tilde f(x) - \log f_\theta(x) \right] \, dx$

Woah đã làm những bản ghi này đến từ đâu? Tại sao phân kỳ KL nói riêng?

Ví dụ, tại sao việc giảm thiểu một phân kỳ khác nhau không tương ứng với các khái niệm siêu nguyên tắc và có động lực của các hậu thế Bayes và tối đa hóa khả năng ở trên?

Dường như có một cái gì đó đặc biệt về phân kỳ KL và / hoặc nhật ký trong bối cảnh này. Tất nhiên, chúng ta có thể giơ tay lên không trung và nói rằng đó chỉ là cách toán học. Nhưng tôi nghi ngờ có thể có một số trực giác hoặc mối liên hệ sâu sắc hơn để khám phá.

bayesian maximum-likelihood kullback-leibler

— Yatharth Agarwal
nguồn

Bạn có thể tìm thấy một số ý tưởng ở đây: stats.stackexchange.com/questions/188903/ trên

— kjetil b halvorsen

@kjetilbhalvorsen Tiêu đề trước nghe như trùng lặp; Tôi xin lỗi. Tôi đã thực hiện một chỉnh sửa và cần phải rõ ràng tại sao câu hỏi này không phải là một bản sao.

— Yatharth Agarwal

Các câu hỏi khác hỏi, sự khác biệt của KL là gì và tại sao nó không đối xứng? Các câu trả lời giải thích khái niệm về sự phân kỳ và một số thông tin về KL. Ngược lại, câu hỏi này đặt ra câu hỏi Tại sao người hậu thế Bayes tập trung xung quanh bộ giảm thiểu của phân kỳ KL? Đơn giản là giải thích làm thế nào các phân kỳ không phải đối xứng và giải thích KL và nói rằng KL được kết nối với MLE không giải quyết được mấu chốt của câu hỏi ở đây: tại sao trong số nhiều phân kỳ có thể có, đặc biệt là KL có mối liên hệ đặc biệt với hậu thế Bayes. Điều này có nghĩa không?

— Yatharth Agarwal

Vâng, nó có ý nghĩa, nhưng vẫn còn một vấn đề. Các hậu sinh cũng phụ thuộc vào trước, và nếu đó là mạnh mẽ, các posteriorcan có một tối đa từ mle. Nhưng trước đó là vắng mặt trong câu hỏi của bạn.

— kjetil b halvorsen

@kjetilbhalversen Ý tôi là không có triệu chứng với ngày càng nhiều mẫu IID và trong các điều kiện (nghiêm ngặt) mà theo đó trước đó không quan trọng về mặt triệu chứng!

— Yatharth Agarwal

Sử dụng logarit trong các tính toán như thế này xuất phát từ lý thuyết thông tin . Trong trường hợp cụ thể của phân kỳ KL, số đo có thể được hiểu là thông tin tương đối của hai bản phân phối:

\begin{aligned} K L (\tilde{f} ∥ f_{θ}) & = \int_{- \infty}^{\infty} \tilde{f} (x) (\log \tilde{f} (x) - \log f_{θ} (x)) d x \\ = (\underset{H (\tilde{f}, f_{θ})}{\underset{⏟}{- \int_{- \infty}^{\infty} \tilde{f} (x) \log f_{θ} (x) d x}}) - (\underset{H (\tilde{f})}{\underset{⏟}{- \int_{- \infty}^{\infty} \tilde{f} (x) \log \tilde{f} (x) d x}}), \end{aligned}

$\begin{equation} \begin{aligned} KL(\tilde{f} \parallel f_\theta) &= \int \limits_{-\infty}^\infty \tilde{f}(x) (\log \tilde{f}(x) - \log f_\theta (x)) \ dx \\[6pt] &= \Bigg( \underbrace{- \int \limits_{-\infty}^\infty \tilde{f}(x) \log f_\theta(x) \ dx}_{H(\tilde{f}, f_\theta)} \Bigg) - \Bigg( \underbrace{- \int \limits_{-\infty}^\infty \tilde{f}(x) \log \tilde{f}(x) \ dx}_{H(\tilde{f})} \Bigg), \\[6pt] \end{aligned} \end{equation}$

trong đó là entropy của và là entropy chéo của và . Entropy có thể được coi là thước đo tỷ lệ trung bình được tạo ra bởi mật độ (nghĩ rằng entropy chéo phức tạp hơn một chút). Giảm thiểu độ phân kỳ KL cho một giá trị cố định (như trong vấn đề bạn đề cập) tương đương với việc giảm thiểu entropy chéo, và do đó tối ưu hóa này có thể được đưa ra một cách giải thích theo lý thuyết thông tin. $H(\tilde{f})$ $\tilde{f}$ $H(\tilde{f}, f_\theta)$ $\tilde{f}$ $f_\theta$ $\tilde{f}$

Tôi không thể đưa ra một tài khoản tốt về lý thuyết thông tin và các thuộc tính của các biện pháp thông tin, trong một bài viết ngắn. Tuy nhiên, tôi khuyên bạn nên xem xét lĩnh vực này, vì nó có kết nối chặt chẽ với thống kê. Nhiều biện pháp thống kê liên quan đến tích phân và tổng trên logarit mật độ là sự kết hợp đơn giản của các biện pháp thông tin tiêu chuẩn được sử dụng trong lý thuyết đo lường, và trong những trường hợp như vậy, chúng có thể được đưa ra những diễn giải về mức độ thông tin cơ bản ở các mật độ khác nhau, v.v.

— Ben - Phục hồi Monica
nguồn

Nhìn vào lý thuyết thông tin nghe có vẻ hứa hẹn! Cảm ơn đã chỉ cho tôi đến nó.

— Yatharth Agarwal

Rõ ràng, bạn không thể giải thích toàn bộ một lĩnh vực toán học trong bài đăng StackExchange, nhưng bạn có bất kỳ tài liệu tham khảo cụ thể nào về nhật ký không?

— Yatharth Agarwal

Tôi chỉ nghĩ rằng có trực giác sâu sắc đằng sau lý do tại sao, giả sử, e ở trong phương trình của Euler và như vậy, có trực giác tương tự ẩn giấu ở đây. Có thể một sản phẩm ở đâu đó làm cho logarit tự nhiên phát sinh. Tôi không chắc.

— Yatharth Agarwal

@Yatharth logarit phát sinh ở đây vì vai trò trung tâm của nó trong định nghĩa của entropy Shannon. Đối với "tại sao" một logarit thích hợp để đo lường thông tin, trái ngược với chức năng khác, hãy xem định lý 2 trong "Lý thuyết toán học về truyền thông" của Shannon. Ngoài ra, "Lý thuyết thông tin và cơ học thống kê" của Jayne là một giới thiệu hay.

— Giáo hoàng Nate