Phân kỳ KL là một cách tự nhiên để đo lường sự khác biệt giữa hai phân phối xác suất. Entropy của phân phối p cung cấp số bit tối thiểu có thể có cho mỗi thông báo sẽ cần (trung bình) để mã hóa các sự kiện được rút ra từ p . Để đạt được ràng buộc này sẽ yêu cầu sử dụng một mã tối ưu được thiết kế cho p , để gán các từ mã ngắn hơn cho các sự kiện xác suất cao hơn. D K L ( p ∥ q ) có thể được hiểu là số lượng dự kiến của phụ bit cho mỗi tin nhắn cần thiết để sự kiện mã hóa rút ra từ đúng phân phối pH(p)pppDKL(p∥q)p, nếu sử dụng mã tối ưu để phân phối chứ không phải p . Nó có một số thuộc tính tốt để so sánh phân phối. Ví dụ: nếu p và q bằng nhau thì phân kỳ KL là 0.qppq
H(p,q)pqDKL(p∥q)H(p,q)pH(p,q)qppH(p,q)p
Phân kỳ KL và entropy chéo có liên quan như:
DKL(p∥q)=H(p,q)−H(p)
pqp
pq
pH(p)pH(p)p
pqDKL(p∥q)pqj∣ipj∣i là phân kỳ Kullback-Leibler (trong trường hợp này bằng với entropy chéo cho đến hằng số phụ gia). "
van der Maaten và Hinton (2008) . Trực quan hóa dữ liệu bằng t-SNE.