Một sự thích nghi của khoảng cách Kullback-Leibler?


28

Nhìn vào bức ảnh này: nhập mô tả hình ảnh ở đây

Nếu chúng ta vẽ một mẫu từ mật độ màu đỏ thì một số giá trị được dự kiến ​​sẽ nhỏ hơn 0,25 trong khi không thể tạo ra một mẫu như vậy từ phân phối màu xanh. Kết quả là, khoảng cách Kullback-Leibler từ mật độ màu đỏ đến mật độ màu xanh là vô cùng. Tuy nhiên, hai đường cong không khác biệt, theo một số "ý nghĩa tự nhiên".

Đây là câu hỏi của tôi: Liệu nó có tồn tại một sự thích ứng của khoảng cách Kullback-Leibler sẽ cho phép một khoảng cách hữu hạn giữa hai đường cong này không?


1
Những "đường cong tự nhiên" này là gì "không khác biệt"? Làm thế nào là sự gần gũi trực quan này liên quan đến bất kỳ tài sản thống kê? (Tôi có thể nghĩ ra một vài câu trả lời nhưng đang tự hỏi bạn đang nghĩ gì trong đầu.)
whuber

1
Chà ... họ khá gần nhau theo nghĩa là cả hai đều được xác định trên các giá trị tích cực; cả hai đều tăng rồi giảm; cả hai thực sự có cùng kỳ vọng; và khoảng cách Kullback Leibler là "nhỏ" nếu chúng ta giới hạn ở một phần của trục x ... Nhưng để liên kết các khái niệm trực quan này với bất kỳ thuộc tính thống kê nào, tôi sẽ cần một số định nghĩa nghiêm ngặt cho các tính năng này ...
ocram

Câu trả lời:


18

Bạn có thể xem Chương 3 của Devroye, Gyorfi và Lugosi, Một lý thuyết xác suất của nhận dạng mẫu , Springer, 1996. Xem, đặc biệt, phần về -divergences.f

ff -Divergences có thể được xem như là một khái quát của Kullback - Leibler (hoặc, thay vào đó, KL có thể được xem như là một trường hợp đặc biệt của -Divergence).f

Dạng tổng quát là

Df(p,q)=q(x)f(p(x)q(x))λ(dx),

Trong đó là thước đo chi phối các biện pháp liên quan đến và và là hàm lồi thỏa mãn . (Nếu và là mật độ tương ứng với thước đo Lebesgue, chỉ cần thay thế ký hiệu cho và bạn sẽ ổn.)p q f ( ) f ( 1 ) = 0 p ( x ) q ( x ) d x λ ( d x )λpqf()f(1)=0p(x)q(x)dxλ(dx)

Chúng tôi phục hồi KL bằng cách lấy . Chúng tôi có thể nhận được sự khác biệt Hellinger thông qua và chúng tôi có được khoảng cách tổng biến thể hoặc bằng cách lấy. Cái sau chof ( x ) = ( 1 - f(x)=xlogxL1f(x)= 1f(x)=(1x)2L1f(x)=12|x1|

DTV(p,q)=12|p(x)q(x)|dx

Lưu ý rằng điều cuối cùng này ít nhất cung cấp cho bạn một câu trả lời hữu hạn.

Trong một cuốn sách nhỏ khác có tên Ước tính mật độ: Chế độ xemL1 , Devroye lập luận mạnh mẽ về việc sử dụng khoảng cách sau này do nhiều đặc tính bất biến tốt đẹp của nó (trong số các thuộc tính khác). Cuốn sách sau này có lẽ khó nắm bắt hơn một chút so với cuốn trước và, như tiêu đề cho thấy, chuyên sâu hơn một chút.


Phụ lục : Qua câu hỏi này , tôi nhận ra rằng có vẻ như biện pháp mà @Didier đề xuất là (lên đến một hằng số) được gọi là Phân kỳ Jensen-Shannon. Nếu bạn làm theo các liên kết đến các câu trả lời được cung cấp trong câu hỏi đó, bạn sẽ thấy rằng nó chỉ ra rằng các vuông gốc của số lượng này thực sự là một thước đo và được công nhận trước đây trong các tài liệu là một trường hợp đặc biệt của một -divergence . Tôi thấy thật thú vị khi chúng ta dường như đã cùng nhau "phát minh lại" bánh xe (khá nhanh chóng) thông qua thảo luận về câu hỏi này. Giải thích tôi đã đưa ra trong bình luận bên dưới phản hồi của @ Didier cũng đã được công nhận trước đây. Xung quanh, loại gọn gàng, thực sự.f


1
Rất đẹp! Tôi sẽ cố gắng tìm "Một lý thuyết xác suất của nhận dạng mẫu" và để hiểu chương 3 của nó!
ocram

1
câu trả lời hay, lưu ý rằng thường xuyên nhất được định nghĩa theo một cách khác làm cho nó bằng một nửa khoảng cách . L 1DTVL1
cướp girard

1
@robin, cảm ơn bình luận của bạn. Vâng, tôi nhận ra điều này. Tôi chỉ cố gắng tránh một hằng số ngoại lai lộn xộn trong cuộc triển lãm. Nhưng, nói đúng ra, bạn đã đúng. Tôi đã cập nhật nó cho phù hợp.
Đức hồng y

3
Phụ lục của bạn là phần thông tin hữu ích nhất mà tôi đã sử dụng trên thống kê.SE, cho đến nay. Tất cả cảm ơn nồng nhiệt nhất của tôi cho điều này. Tôi chỉ đơn giản là sao chép ở đây là tài liệu tham khảo cho bạn: research-repository.st-andrews.ac.uk/bitstream/10023/1591/1/... Endres và Schindelin, Một số liệu mới cho phân bố xác suất, IEEE Trans. trên Thông tin. Của mầy. , tập 49, không 3, tháng 7 năm 2003, trang 1858-1860.
Đã làm

1
@Didier, tốt, đó là một tai nạn hạnh phúc hơn bất cứ điều gì khác. Không ai trả lời câu hỏi kia, vì vậy tôi quyết định thử tìm hiểu về sự khác biệt của Jensen-Shannon ở nơi đầu tiên. Khi tôi tìm thấy định nghĩa, có vẻ hợp lý khi kết nối hai câu hỏi thông qua phụ lục của tôi. Tôi rất vui vì bạn thấy nó hữu ích. Trân trọng.
Đức Hồng Y

19

Phân kỳ Kullback-Leibler của đối với là vô hạn khi không hoàn toàn liên tục đối với , nghĩa là khi tồn tại tập có thể đo được sao cho và . Hơn nữa, phân kỳ KL không đối xứng, theo nghĩa chung là . Hãy nhớ lại rằng Một cách để thoát khỏi cả hai nhược điểm này, vẫn dựa trên phân kỳ KL, là giới thiệu trung điểm Do đó,κ(P|Q)PQPQAQ(A)=0P(A)0κ(PQ)κ(QP)

κ(PQ)=Plog(PQ).
RPQRPQRη(P,Q)=κ(P|R)+κ(Q|R). η(P,Q)PQηη(P,Q)=η(Q,P)PQη(
R=12(P+Q).
Rlà thước đo xác suất, và và luôn hoàn toàn liên tục đối với với . Do đó, người ta có thể xem xét "khoảng cách" giữa và , vẫn dựa trên phân kỳ KL nhưng sử dụng , được định nghĩa là Khi đó là không âm và hữu hạn cho mọi và , đối xứng theo nghĩa là cho mọi và và khi và chỉ khi .PQRPQR
η(P,Q)=κ(PR)+κ(QR).
η(P,Q)PQηη(P,Q)=η(Q,P)PQη(P,Q)=0P=Q

Một công thức tương đương là

η(P,Q)=2log(2)+(Plog(P)+Qlog(Q)(P+Q)log(P+Q)).

Phụ lục 1 Việc giới thiệu trung điểm của và không phải là tùy ý theo nghĩa trong đó mức tối thiểu là trên tập hợp các biện pháp xác suất.PQ

η(P,Q)=min[κ(P)+κ(Q)],

Phụ lục 2 @cardinal nhận xét rằng cũng là một phân phối , cho hàm lồi ηf

f(x)=xlog(x)(1+x)log(1+x)+(1+x)log(2).

2
@Marco, @Didier Piau, có thể lưu ý rằng đề xuất của @ Didier là một trường hợp đặc biệt khác của -divergence trong đó . ff(x)=xlogx(1+x)log(1+x2)
Đức hồng y

1
@Marco, @Didier Piau, một công thức thay thế có một số tính chất gợi là và vì vậy trong đó . Nói cách khác, là "sự khác biệt giữa entropy của thước đo trung bình và entropy trung bình của các biện pháp ".η(P,Q)=PlogP+QlogQ2RlogR=2H(R)(H(P)+H(Q))η(P,Q)=2(H(μ(P,Q))μ(H(P),H(Q))μ(x,y)=x+y212η(P,Q)
Hồng y

3
Đây không phải là phân kỳ của Jensen-Shannon sao?
Ghi nhớ


"trong đó mức tối thiểu là trên tập hợp các biện pháp xác suất." Tôi thích đặc tính này của phân kỳ Jensen giáo Shannon. Có một bằng chứng về nó ở đâu đó?
dùng76284

10

Các khoảng cách Kolmogorov giữa hai phân bố và là mức sup của CDF của họ. (Đây là sự khác biệt lớn nhất theo chiều dọc giữa hai biểu đồ của CDF.) Nó được sử dụng trong thử nghiệm phân phối trong đó là phân phối giả định và là hàm phân phối theo kinh nghiệm của bộ dữ liệu.PQPQ

Thật khó để mô tả điều này như là một "sự thích nghi" của khoảng cách KL, nhưng nó đáp ứng các yêu cầu khác là "tự nhiên" và hữu hạn.

Ngẫu nhiên, vì phân kỳ KL không phải là "khoảng cách" thực sự, chúng ta không phải lo lắng về việc giữ nguyên tất cả các tính chất tiên đề của khoảng cách. Chúng ta có thể duy trì các tài sản phi tiêu cực trong khi làm cho các giá trị hữu hạn bằng cách áp dụng bất kỳ chuyển đổi đơn điệu đối với một số giá trị hữu hạn . Các tiếp tuyến nghịch đảo sẽ làm tốt, ví dụ.R+[0,C]C


1
Cảm ơn bạn đã gợi ý về khoảng cách Kolmogorov. Bạn có thể bình luận về sự biến đổi đơn điệu rõ ràng hơn một chút không? Thx
ocram

1
@Marco Tôi không hiểu làm thế nào người ta có thể rõ ràng hơn nữa. Bạn có nghĩa là khôi phục lại những gì tôi đã viết theo công thức như hoặc cho với ngụ ý với mọi ? arctan(KL(P,Q))f(KL(P,Q))f:R+[0,C]xyf(x)f(y)x,y0
whuber

1
Vâng, đó là những gì tôi muốn nói :-) Tôi không chắc chắn nên áp dụng biến đổi nào. Bây giờ, rõ ràng, thx
ocram

1
@Marco: Tôi bị lạc. Bạn có giải quyết cho khoảng cách Kolmogorov (luôn luôn hữu hạn nhưng không có gì chung với phân kỳ KL)? Hoặc cho một biến đổi đơn điệu giới hạn của phân kỳ KL (chẳng hạn như )? Trong ví dụ về bài đăng của bạn (và trong bất kỳ ví dụ nào không hoàn toàn liên tục ), cái sau tạo ra tối cao của biến đổi ( nếu bạn giải quyết cho ). Trên thực tế, điều này từ bỏ mọi ý tưởng ước tính khoảng cách giữa các biện pháp xác suất như vậy chính xác hơn là nói chúng ở rất xa (cho dù bạn mã hóa điều này bằng hay bởi là không liên quan). arctanπ/2arctanπ/2+
Đã làm

@Didier Có, phân kỳ KL biến đổi (khi được đối xứng, như bạn mô tả) có thể không thỏa mãn bất đẳng thức tam giác và do đó sẽ không phải là một khoảng cách, nhưng nó vẫn sẽ xác định một cấu trúc liên kết (có thể có thể biến đổi được). Do đó bạn sẽ từ bỏ ít hoặc không có gì. Tôi vẫn không biết gì về giá trị của việc thực hiện bất kỳ điều gì trong số này: dường như đây chỉ là một cách để vượt qua những khó khăn liên quan đến các giá trị vô hạn của phân kỳ KL ở nơi đầu tiên.
whuber

2

Đúng vậy, Bernardo và Reuda đã định nghĩa một thứ gọi là "sự khác biệt nội tại" mà với tất cả các mục đích là một phiên bản "đối xứng" của phân kỳ KL. Lấy phân kỳ KL từ đến là Sự khác biệt nội tại được đưa ra bởi:PQκ(PQ)

δ(P,Q)min[κ(PQ),κ(QP)]

Tìm kiếm sự khác biệt nội tại (hoặc tiêu chí tham khảo bayes) sẽ cung cấp cho bạn một số bài viết về biện pháp này.

Trong trường hợp của bạn, bạn sẽ chỉ cần phân kỳ KL là hữu hạn.

Một biện pháp khác để thay thế cho KL là khoảng cách Hellinger

EDIT: làm rõ, một số ý kiến ​​nêu ra cho thấy sự khác biệt nội tại sẽ không hữu hạn khi mật độ này 0 khi mật độ kia không. Điều này không đúng nếu hoạt động đánh giá mật độ 0 được thực hiện dưới dạng giới hạn hoặc . Giới hạn được xác định rõ và bằng đối với một trong các phân kỳ KL, trong khi giới hạn còn lại sẽ phân kỳ. Để xem ghi chú này:Q0 P0 0

δ(P,Q)min[Plog(PQ),Qlog(QP)]

Lấy giới hạn là trên một vùng của tích phân, tích phân thứ hai và tích phân thứ nhất hội tụ thành trên vùng này (giả sử các điều kiện sao cho người ta có thể trao đổi giới hạn và tích hợp). Điều này là do . Do tính đối xứng trong và kết quả cũng được dùng cho .P00limz0zlog(z)=0PQQ


1
Ngay cả "sự khác biệt nội tại" sẽ là vô hạn khi bằng 0 với xác suất dương cho và ngược lại, ngay cả khi và giống hệt nhau. PQPQ
whuber

1
Có ... tôi sợ rằng sự khác biệt nội tại không đáp ứng yêu cầu. Nhưng cảm ơn bạn đã gợi ý. Bất kỳ đề nghị khác sẽ được đánh giá cao.
ocram

1
Nó đáp ứng yêu cầu, nếu bạn giới hạn sự hỗ trợ của mật độ màu xanh ở nơi nó có hỗ trợ tích cực nghiêm ngặt, giống như bạn có đối với màu đỏ (> 0)
xác suất

3
@probabilityislogic: Tôi không hiểu những nhận xét cuối cùng của bạn. Trước tiên, chúng ta hãy đặt tên riêng của chúng cho các khái niệm liên quan và nói rằng hoàn toàn liên tục đối với (ký hiệu là ) nếu, với mọi có thể đo được , ngụ ý . Bây giờ, mặc dù cân nhắc giới hạn phần nào bí ẩn (với tôi) của bạn, bạn là hữu hạn khi và chỉ khi hoặc . ... / ...PQPQAQ(A)=0P(A)=0δ(P,Q)PQQP
Đã làm

2
... / ... Một cách ra khỏi câu hỏi hóc búa bạn dường như được đào vào có thể là để giới thiệu các biện pháp điểm giữa . Vì và , nên đại lượng luôn hữu hạn. Hơn nữa iff và là đối xứng. Do đó thực sự đo một loại "khoảng cách" giữa và . P « P + Q Q « P + Q η ( P , Q ) : = κ ( P | P + Q ) + κ ( Q | P + Q ) η ( P , Q ) = 0 P = Q η η ( P , Q )P+QPP+QQP+Qη(P,Q):=κ(P|P+Q)+κ(Q|P+Q)η(P,Q)=0P=Qηη(P,Q)PQ
Đã
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.