Kết nối giữa số liệu Fisher và entropy tương đối


20

Ai đó có thể chứng minh mối liên hệ sau đây giữa số liệu thông tin của Fisher và entropy tương đối (hoặc phân kỳ KL) một cách thuần túy toán học không?

D(p(,a+da)p(,a))=12gi,jdaidaj+(O(da3)
trong đó , và g_ {i, j} \, da ^ i \, da ^ j: = \ sum_ {i, j} g_ {i, j} \, da ^ i \, da ^ j là quy ước tổng hợp Einstein.a=(a1,,an),da=(da1,,dan)
gi,j=i(logp(x;a))j(logp(x;a)) p(x;a) dx
gtôi,jdmộttôidmộtj: =Σtôi,jgtôi,jdmộttôidmộtj

Tôi tìm thấy những điều trên trong blog tốt đẹp của John Baez , nơi Vasileios Anagnostopoulos nói về điều đó trong các bình luận.


1
Kumara thân mến: Để làm rõ, nó sẽ giúp giải thích rõ hơn ký hiệu của bạn, cụ thể là ý nghĩa của gtôi,j . Ngoài ra, tôi nghĩ rằng biểu thức của bạn thiếu hệ số không đổi bằng 1/2 trước số hạng đầu tiên của phía bên phải của phương trình hiển thị. Lưu ý rằng cái mà Kullback tự gọi là phân kỳ (sử dụng ký hiệu J(,) ) là phiên bản đối xứng của cái được gọi là phân kỳ KL, tức là J(p,q)= =D(pq)+D(qp) . Phân kỳ KL được ký hiệu là tôi(,) trong các tác phẩm của Kullback. Điều này giải thích các yếu tố của 1/2 là tốt. Chúc mừng.
Đức Hồng Y

Câu trả lời:


19

Vào năm 1946, nhà địa lý học và nhà thống kê Bayes Harold Jeffreys đã giới thiệu cái mà ngày nay chúng ta gọi là phân kỳ Kullback-Leibler và phát hiện ra rằng với hai bản phân phối "gần như vô tận" (chúng ta hãy hy vọng rằng các chàng trai Math SE không thấy điều này ;-) chúng ta có thể viết phân kỳ Kullback-Leibler của chúng như một dạng bậc hai có hệ số được đưa ra bởi các yếu tố của ma trận thông tin Fisher. Ông giải thích dạng bậc hai này là phần tử độ dài của đa tạp Riemannian, với thông tin Fisher đóng vai trò của số liệu Riemannian. Từ mô hình thống kê mô hình thống kê này, ông đã đưa ra Jeffreys của mình trước khi biện pháp được tạo ra một cách tự nhiên bởi số liệu Riemannian và biện pháp này có thể được hiểu là một phân phối thống nhất nội tại trên đa tạp, mặc dù, nói chung, nó không phải là một biện pháp hữu hạn.

Để viết một bằng chứng nghiêm ngặt, bạn sẽ cần phải tìm ra tất cả các điều kiện thông thường và quan tâm đến thứ tự các điều khoản lỗi trong bản mở rộng Taylor. Dưới đây là một bản phác thảo ngắn gọn của các đối số.

Sự phân kỳ Kullback-Leibler đối xứng giữa hai mật độ và được định nghĩa làfg

D[f,g]= =(f(x)-g(x))đăng nhập(f(x)g(x))dx.

Nếu chúng ta có một họ mật độ được tham số hóa bởi , thìθ= =(θ1,Giáo dục,θk)

D[p(|θ),p(|θ+Δθ)]= =(p(x,|θ)-p(x|θ+Δθ))đăng nhập(p(x|θ)p(x|θ+Δθ))dx,
trong đó . Giới thiệu ký hiệu một số đại số đơn giản cho Sử dụng bản mở rộng Taylor cho logarit tự nhiên, chúng ta có Δθ= =(Δθ1,Giáo dục,Δθk)
Δp(x|θ)= =p(x|θ)-p(x|θ+Δθ),
D[p(|θ),p(|θ+Δθ)]= =Δp(x|θ)p(x|θ)đăng nhập(1+Δp(x|θ)p(x|θ))p(x|θ)dx.
đăng nhập(1+Δp(x|θ)p(x|θ))Δp(x|θ)p(x|θ),
D [ p ( và do đó Nhưng Do đó trong đó
D[p(|θ),p(|θ+Δθ)](Δp(x|θ)p(x|θ))2p(x|θ)dx.
Δp(x|θ)p(x|θ)1p(x|θ)Σtôi= =1kp(x|θ)θtôiΔθtôi= =Σtôi= =1kđăng nhậpp(x|θ)θtôiΔθtôi.
D[p(|θ),p(|θ+Δθ)]Σtôi,j= =1kgtôijΔθtôiΔθj,
gtôij= =đăng nhậpp(x|θ)θtôiđăng nhậpp(x|θ)θjp(x|θ)dx.

Đây là bài báo gốc:

Jeffreys, H. (1946). Một hình thức bất biến cho xác suất trước trong các vấn đề ước tính. Proc. Hoàng Sóc. của Luân Đôn, Sê-ri A, 186, 453 Trực461.


1
Cảm ơn bạn rất nhiều vì văn bản tốt đẹp. Sẽ thật tốt nếu bạn có thể giúp đỡ điều này .
Kumara

Vâng, bạn nói đúng. Tôi phải ra khỏi "cái bẫy trừu tượng" này.
Kumara

@zen Bạn đang sử dụng Taylor mở rộng logarit dưới tích phân, tại sao điều đó hợp lệ?
Sus20200

1
Có vẻ rất quan trọng khi bạn bắt đầu với phân kỳ KL đối xứng, trái ngược với phân kỳ KL tiêu chuẩn. Bài viết Wikipedia không đề cập đến phiên bản đối xứng, và vì vậy nó có thể không chính xác. vi.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
Chỉ huy phẫu thuật

11

Bằng chứng cho phân kỳ KL thông thường (không đối xứng)

Câu trả lời của Zen sử dụng phân kỳ KL đối xứng, nhưng kết quả cũng đúng với dạng thông thường, vì nó trở thành đối xứng cho các phân phối gần cực kỳ.

Đây là bằng chứng cho các phân phối rời rạc được tham số hóa bởi vô hướng (vì tôi lười biếng), nhưng có thể dễ dàng viết lại cho các phân phối liên tục hoặc một vectơ tham số:θ

D(pθ,pθ+dθ)= =Σpθđăng nhậppθ-Σpθđăng nhậppθ+dθ .
Taylor mở rộng thuật ngữ cuối cùng: Giả sử một số quy tắc, tôi đã sử dụng hai kết quả:
= =Σpθđăng nhậppθ-Σpθđăng nhậppθ= = 0-dθΣpθddθđăng nhậppθ= = 0 -12dθ2Σpθd2dθ2đăng nhậppθ= =-Σpθ(ddθđăng nhậppθ)2 +Ôi(dθ3)= =12dθ2Σpθ(ddθđăng nhậppθ)2Thông tin cá+Ôi(dθ3).
:Σpθddθđăng nhậppθ= =Σddθpθ= =ddθΣpθ= =0,

:Σpθd2dθ2đăng nhậppθ= =Σpθddθ(1pθdpθdθ)= =Σpθ[1pθd2pθdθ-(1pθdpθdθ)2]= =Σd2pθdθ2-Σpθ(1pθdpθdθ)2= =d2dθ2Σpθ= = 0-Σpθ(ddθđăng nhậppθ)2.

4

Bạn có thể tìm thấy mối quan hệ tương tự (đối với tham số một chiều) trong phương trình (3) của bài báo sau

D. Guo (2009), Entropy tương đối và chức năng tính điểm: Mối quan hệ ước tính thông tin mới thông qua mối quan hệ phụ gia tùy ý , trong Proc. Hội thảo quốc tế về lý thuyết thông tin , 814 chuyến818. ( liên kết ổn định ).

Các tác giả tham khảo

S. Kullback, Lý thuyết và Thống kê thông tin . New York: Dover, 1968.

cho một bằng chứng về kết quả này.


1
Một phiên bản đa biến của phương trình (3) của bài báo đó đã được chứng minh trong văn bản Kullback được trích dẫn ở trang 27-28. Hằng số dường như đã mất tích trong câu hỏi của OP. :)1/2
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.