Các định nghĩa khác nhau của hàm mất entropy chéo


12

Tôi bắt đầu học về các mạng nơ-ron với hướng dẫn chấm com nơ-ron thần kinh. Cụ thể trong chương 3 có một phần về hàm entropy chéo và định nghĩa mất entropy chéo là:

C=1nxj(yjlnajL+(1yj)ln(1ajL))

Tuy nhiên, đọc phần giới thiệu Tensorflow , mất entropy chéo được định nghĩa là:

C=1nxj(yjlnajL) (khi sử dụng cùng các ký hiệu như trên)

Sau đó tìm kiếm xung quanh để tìm những gì đang diễn ra, tôi tìm thấy một tập hợp các ghi chú khác: ( https://cs231n.github.io/linear- classify / # softwaremax- classifier ) sử dụng một định nghĩa hoàn toàn khác về mất entropy chéo, mặc dù điều này thời gian cho một bộ phân loại softmax chứ không phải cho một mạng lưới thần kinh.

Ai đó có thể giải thích cho tôi những gì đang xảy ra ở đây? Tại sao có sự khác biệt btw. những gì mọi người định nghĩa mất entropy chéo là? Có phải chỉ có một số nguyên tắc bao trùm?


Câu trả lời:


18

Ba định nghĩa về cơ bản là giống nhau.

1) Giới thiệu Tensorflow ,

C=1nxj(yjlnaj).

2) Đối với phân loại nhị phân , nó trở thành và vì các ràng buộc và , nó có thể được viết lại thành giống như trong chương 3 .j=2

C=1nx(y1lna1+y2lna2)
jaj=1jyj=1
C=1nx(y1lna1+(1y1)ln(1a1))

3) Hơn nữa, nếu là một vectơ nóng (thường là trường hợp cho nhãn phân loại) với là phần tử khác không, thì tổn thất entropy chéo của mẫu tương ứng là yyk

Cx=j(yjlnaj)=(0+0+...+yklnak)=lnak.

Trong ghi chú cs231 , mất entropy chéo của một mẫu được đưa ra cùng với chuẩn hóa softmax là

Cx=ln(ak)=ln(efkjefj).

0

Trong chương thứ ba , phương trình (63) là entropy chéo được áp dụng cho nhiều sigmoids (có thể không bằng 1) trong khi trong phần giới thiệu Tensoflow , entropy chéo được tính trên lớp đầu ra softmax.

Như được giải thích bởi dontloo cả hai công thức về cơ bản là tương đương cho hai lớp nhưng nó không phải là khi có nhiều hơn hai lớp được xem xét. Softmax có ý nghĩa đối với đa lớp với các lớp độc quyền ( nghĩa là khi chỉ có một nhãn cho mỗi mẫu, cho phép mã hóa một nhãn nóng) trong khi (nhiều) sigmoids có thể được sử dụng để mô tả một vấn đề đa nhãn (nghĩa là với các mẫu có thể dương tính cho một số lớp học).

Xem câu trả lời khác của dontloo là tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.