Công thức entropy chéo có hai phân phối, , phân phối thực và q (x) , phân phối ước tính, được xác định qua biến rời r x và được đưa ra bởip(x)q(x)x
H(p,q)=−∑∀xp(x)log(q(x))
Đối với mạng nơ ron, phép tính độc lập với các điều sau:
Những loại lớp đã được sử dụng.
Loại kích hoạt nào đã được sử dụng - mặc dù nhiều kích hoạt sẽ không tương thích với tính toán vì đầu ra của chúng không thể hiểu được vì xác suất (nghĩa là đầu ra của chúng là âm, lớn hơn 1 hoặc không tổng bằng 1). Softmax thường được sử dụng để phân loại đa lớp vì nó đảm bảo chức năng phân phối xác suất hoạt động tốt.
Đối với mạng nơ-ron, bạn thường sẽ thấy phương trình được viết dưới dạng y là vectơ chân thực và y^ (hoặc một số giá trị khác được lấy trực tiếp từ đầu ra của lớp cuối cùng) định giá. Đối với một ví dụ duy nhất, nó sẽ trông như thế này:
L=−y⋅log(y^)
Trong đó ⋅ là sản phẩm chấm vector.
Ví dụ cơ bản của bạn y đưa ra tất cả xác suất cho giá trị đầu tiên và các giá trị khác bằng 0, vì vậy chúng tôi có thể bỏ qua chúng và chỉ cần sử dụng thuật ngữ phù hợp từ ước tính của bạn y^
L=−(1×log(0.1)+0×log(0.5)+...)
L=−log(0.1)≈2.303
Một điểm quan trọng từ ý kiến
Điều đó có nghĩa là, tổn thất sẽ như nhau cho dù các dự đoán là hay ?[0.1,0.5,0.1,0.1,0.2][0.1,0.6,0.1,0.1,0.1]
Vâng, đây là một tính năng chính của logloss đa kính, nó chỉ thưởng / phạt các xác suất của các lớp chính xác. Giá trị độc lập với cách xác suất còn lại được phân chia giữa các lớp không chính xác.
Bạn sẽ thường thấy phương trình này tính trung bình trên tất cả các ví dụ dưới dạng hàm chi phí . Nó không phải luôn luôn được tuân thủ nghiêm ngặt trong các mô tả, nhưng thông thường hàm mất là mức thấp hơn và mô tả cách một cá thể hoặc thành phần xác định giá trị lỗi, trong khi hàm chi phí ở mức cao hơn và mô tả cách hệ thống hoàn chỉnh được đánh giá để tối ưu hóa. Hàm chi phí dựa trên mất nhật ký đa lớp cho tập dữ liệu có kích thước có thể trông như thế này:N
J= - 1N( ∑i = 1Nytôi⋅ log( y^tôi) )
Nhiều triển khai sẽ yêu cầu các giá trị thật của bạn phải được mã hóa một lần (với một lớp đúng duy nhất), vì điều đó cho phép tối ưu hóa thêm. Tuy nhiên, về nguyên tắc, tổn thất entropy chéo có thể được tính toán - và tối ưu hóa - khi đây không phải là trường hợp.