Tôi hiểu rằng đã đưa ra một tập hợp các quan sát độc lập các Maximum Likelihood Estimator (hay tương đương, MAP với TV / thống nhất trước đó) xác định các thông số \ mathbf {θ} sản xuất phân phối model p_ {model} \ bên trái (\, \ cdot \ ,; \ mathbf {θ} \ right) phù hợp nhất với những quan sát đó sẽ là
hoặc, thuận tiện hơn
và xem vai trò mà có thể đóng vai trò trong việc xác định hàm mất cho các mạng thần kinh sâu đa lớp, trong đó tương ứng với các tham số có thể huấn luyện của mạng (ví dụ: và các quan sát là các cặp kích hoạt đầu vào và các nhãn lớp đúng tương ứng , = { }, bằng cách lấy
Điều tôi không hiểu là làm thế nào điều này liên quan đến cái gọi là "entropy chéo" của đầu ra đúng (được vector hóa), và kích hoạt đầu ra tương ứng của mạng, được sử dụng trong thực tế khi đo lỗi / lỗ trong đào tạo . Có một số vấn đề liên quan:
Kích hoạt "như xác suất"
Một trong những bước trong việc thiết lập mối quan hệ giữa MLE và entropy chéo là sử dụng các kích hoạt đầu ra "như thể" chúng là xác suất. Nhưng tôi không rõ họ là ai, hoặc ít nhất là họ như vậy.
Khi tính toán sai số đào tạo - cụ thể, khi gọi đó là "mất entropy chéo" - người ta cho rằng (sau khi bình thường hóa kích hoạt thành tổng số 1)
hoặc là
để chúng ta có thể viết
và như vậy
Nhưng trong khi điều này chắc chắn làm cho là một xác suất (đến mức có bất cứ điều gì), nó không hạn chế các kích hoạt khác.
Can các thực sự được cho là PMFs trong trường hợp đó? Có bất cứ điều gì làm cho trên thực tế không phải là xác suất (và chỉ "thích" chúng )?
Giới hạn để phân loại
Bước quan trọng ở trên trong việc đánh đồng MLE với entropy chéo phụ thuộc hoàn toàn vào cấu trúc "một nóng" của đặc trưng cho một vấn đề học tập đa lớp (một nhãn). Bất kỳ cấu trúc nào khác cho sẽ khiến cho không thể chuyển từ sang .
Có phải phương trình của MLE và tối thiểu hóa entropy chéo được giới hạn trong các trường hợp trong đó là "một nóng"?
Xác suất đào tạo và dự đoán khác nhau
Trong quá trình dự đoán, hầu như luôn luôn là như vậy
dẫn đến xác suất dự đoán chính xác khác với xác suất được học trong quá trình đào tạo trừ khi đó là trường hợp đáng tin cậy
Đây có phải là đáng tin cậy trường hợp? Có khả năng ít nhất là gần đúng không? Hoặc có một số đối số khác biện minh cho phương trình này của giá trị kích hoạt đã học ở vị trí nhãn với xác suất rằng giá trị tối đa của kích hoạt đã học xảy ra ở đó?
Entropy và lý thuyết thông tin
Ngay cả khi giả định rằng các mối quan tâm trên đã được giải quyết và các kích hoạt là PMF hợp lệ (hoặc có thể được xử lý một cách có ý nghĩa như vậy), do đó vai trò của entropy chéo trong tính toán là không rõ ràng, không rõ ràng cho tôi biết tại sao nó hữu ích hoặc có ý nghĩa khi nói về entropy của , vì entropy Shanon áp dụng cho một cụ thể loại mã hóa , không phải là loại được sử dụng trong đào tạo mạng.
Entropy lý thuyết đóng vai trò gì trong việc diễn giải hàm chi phí, trái ngược với việc đơn giản là cung cấp một công cụ (dưới dạng entropy chéo) để tính toán một (tương ứng với MLE)?
softmax_cross_entropy_with_logits
làm: họ tính toán và do đó xác định một mạng "được thiết kế để" tạo ra xác suất (ít nhất là tại vị trí nhãn). Không?