Câu trả lời:
Bạn sẽ cần một số điều kiện để yêu cầu sự tương đương giữa giảm thiểu entropy chéo và giảm thiểu phân kỳ KL. Tôi sẽ đặt câu hỏi của bạn trong bối cảnh các vấn đề phân loại bằng cách sử dụng entropy chéo làm hàm mất.
Trước tiên chúng ta hãy nhớ rằng entropy được sử dụng để đo lường độ không đảm bảo của hệ thống, được định nghĩa là
cho là xác suất của các trạng thái khác nhau của hệ thống. Từ quan điểm lý thuyết thông tin, là lượng thông tin cần thiết để loại bỏ sự không chắc chắn.
Ví dụ, sự kiện A I will die eventually
gần như chắc chắn (có thể chúng ta có thể giải quyết vấn đề lão hóa cho từ almost
), do đó, nó có entropy thấp chỉ yêu cầu thông tin the aging problem cannot be solved
để làm cho nó chắc chắn. Tuy nhiên, sự kiện B The president will die in 50 years
không chắc chắn hơn A, do đó cần nhiều thông tin hơn để loại bỏ những điều không chắc chắn.
Bây giờ hãy xem định nghĩa về phân kỳ KL giữa các sự kiện A và B
trong đó thuật ngữ đầu tiên của phía bên phải là entropy của sự kiện A, thuật ngữ thứ hai có thể được hiểu là kỳ vọng của sự kiện B về sự kiện A. Và mô tả mức độ khác nhau của B so với A theo quan điểm của A.
Để liên kết entropy chéo với entropy và phân kỳ KL, chúng tôi chính thức hóa entropy chéo theo các sự kiện A và B là
Từ các định nghĩa, chúng ta có thể dễ dàng thấy
Nếu là hằng số, thì tối thiểu hóa tương đương với giảm thiểu .
Một câu hỏi tiếp theo tự nhiên như làm thế nào entropy có thể là một hằng số. Trong một nhiệm vụ học máy, chúng tôi bắt đầu với một tập dữ liệu (ký hiệu là ) đại diện cho vấn đề cần giải quyết và mục đích học tập là làm cho phân phối ước tính mô hình (ký hiệu là ) gần đúng càng tốt để phân phối đúng sự cố (ký hiệu là ).
không xác định và được đại diện bởi . Do đó, trong một thế giới lý tưởng, chúng tôi mong đợi
và giảm thiểu . Và may mắn thay, trong thực tế
Tôi cho rằng đó là vì các mô hình thường hoạt động với các mẫu được đóng gói theo lô nhỏ. Đối với phân kỳ KL và Entropy chéo, quan hệ của chúng có thể được viết là
Từ phương trình, chúng tôi có thể thấy rằng phân kỳ KL có thể khởi hành thành một Entropy chéo của p và q (phần đầu tiên) và một entropy toàn cầu của sự thật mặt đất p (phần thứ hai).
Trong nhiều dự án học máy, xe buýt nhỏ có liên quan đến đào tạo nhanh, trong đó của xe buýt nhỏ có thể khác với toàn cầu . Trong trường hợp như vậy, Cross-Entropy tương đối mạnh hơn trong thực tế trong khi phân kỳ KL cần một H (p) ổn định hơn để hoàn thành công việc của mình.