Đặt dữ liệu là . Viết cho phân phối theo kinh nghiệm. Theo định nghĩa, cho bất kỳ chức năng ,x =( x1, Lọ , xn)fF( x )f
EF( x )[ f( X) ] = 1nΣi = 1nf( xtôi) .
Đặt mô hình có mật độ trong đó được xác định trên sự hỗ trợ của mô hình. Các cross-entropy của và được định nghĩa làe f ( x ) fMef( x )fMF( x )M
H( F( x ) , M) = - EF( x )[ nhật ký( ef( X)] = - EF( x )[ f( X) ] = - 1nΣi = 1nf( xtôi) .(1)
Giả sử là một mẫu ngẫu nhiên đơn giản, khả năng nhật ký âm của nó làx
- đăng nhập( L ( x ) ) = - nhật kýΠi = 1nef( xtôi)= - Σi = 1nf( xtôi)(2)
nhờ các tính chất của logarit (họ chuyển đổi sản phẩm thành tổng). Biểu thức là biểu thức lần không đổi . Bởi vì các hàm mất mát chỉ được sử dụng trong các số liệu thống kê bằng cách so sánh chúng, nên sẽ không có sự khác biệt rằng một giá trị này là hằng số (dương) so với giá trị khác. Theo nghĩa này, khả năng nhật ký phủ định "là một" entropy chéo trong trích dẫn.n ( 1 )( 2 )n( 1 )
Phải mất thêm một chút trí tưởng tượng để biện minh cho khẳng định thứ hai của trích dẫn. Kết nối với lỗi bình phương là rõ ràng, vì đối với "mô hình Gaussian" dự đoán các giá trị tại các điểm , giá trị của tại bất kỳ điểm nào làx fp ( x )xf
f( X ; p , σ) = - 12( nhật ký( 2 πσ2) + ( x - p ( x ) )2σ2) ,
đó là lỗi bình phương nhưng được định cỡ lại bằng và được thay đổi bởi một hàm của . Một cách để làm cho trích dẫn chính xác là giả sử nó không xem xét một phần của "mô hình" - phải được xác định bằng cách nào đó độc lập với dữ liệu. Trong trường hợp đó, sự khác biệt giữa các lỗi bình phương trung bình tỷ lệ thuận với sự khác biệt giữa các entropi chéo hoặc khả năng đăng nhập, do đó làm cho cả ba tương đương cho các mục đích phù hợp mô hình.1 / ( 2 σ 2 ) σ( x - p ( x ) )2 1 / ( 2 σ2)σσσσ
(Thông thường, mặc dù, phù hợp như một phần của quy trình lập mô hình, trong trường hợp đó, trích dẫn sẽ không hoàn toàn chính xác.)σ= σ( x )