Bạn có thể xem Chương 3 của Devroye, Gyorfi và Lugosi, Một lý thuyết xác suất của nhận dạng mẫu , Springer, 1996. Xem, đặc biệt, phần về -divergences.f
ff -Divergences có thể được xem như là một khái quát của Kullback - Leibler (hoặc, thay vào đó, KL có thể được xem như là một trường hợp đặc biệt của -Divergence).f
Dạng tổng quát là
Df(p,q)=∫q(x)f(p(x)q(x))λ(dx),
Trong đó là thước đo chi phối các biện pháp liên quan đến và và là hàm lồi thỏa mãn . (Nếu và là mật độ tương ứng với thước đo Lebesgue, chỉ cần thay thế ký hiệu cho và bạn sẽ ổn.)p q f ( ⋅ ) f ( 1 ) = 0 p ( x ) q ( x ) d x λ ( d x )λpqf(⋅)f(1)=0p(x)q(x)dxλ(dx)
Chúng tôi phục hồi KL bằng cách lấy . Chúng tôi có thể nhận được sự khác biệt Hellinger thông qua và chúng tôi có được khoảng cách tổng biến thể hoặc bằng cách lấy. Cái sau chof ( x ) = ( 1 - √f(x)=xlogxL1f(x)= 1f(x)=(1−x−−√)2L1f(x)=12|x−1|
DTV(p,q)=12∫|p(x)−q(x)|dx
Lưu ý rằng điều cuối cùng này ít nhất cung cấp cho bạn một câu trả lời hữu hạn.
Trong một cuốn sách nhỏ khác có tên Ước tính mật độ: Chế độ xemL1 , Devroye lập luận mạnh mẽ về việc sử dụng khoảng cách sau này do nhiều đặc tính bất biến tốt đẹp của nó (trong số các thuộc tính khác). Cuốn sách sau này có lẽ khó nắm bắt hơn một chút so với cuốn trước và, như tiêu đề cho thấy, chuyên sâu hơn một chút.
Phụ lục : Qua câu hỏi này , tôi nhận ra rằng có vẻ như biện pháp mà @Didier đề xuất là (lên đến một hằng số) được gọi là Phân kỳ Jensen-Shannon. Nếu bạn làm theo các liên kết đến các câu trả lời được cung cấp trong câu hỏi đó, bạn sẽ thấy rằng nó chỉ ra rằng các vuông gốc của số lượng này thực sự là một thước đo và được công nhận trước đây trong các tài liệu là một trường hợp đặc biệt của một -divergence . Tôi thấy thật thú vị khi chúng ta dường như đã cùng nhau "phát minh lại" bánh xe (khá nhanh chóng) thông qua thảo luận về câu hỏi này. Giải thích tôi đã đưa ra trong bình luận bên dưới phản hồi của @ Didier cũng đã được công nhận trước đây. Xung quanh, loại gọn gàng, thực sự.f