Vấn đề là:
Lấy độ dốc liên quan đến lớp đầu vào cho mạng thần kinh một lớp ẩn đơn bằng cách sử dụng sigmoid cho đầu vào -> hidden, softmax cho hidden -> đầu ra, với mất entropy chéo.
Tôi có thể vượt qua hầu hết các công cụ phái sinh bằng cách sử dụng quy tắc chuỗi nhưng tôi không chắc chắn về cách thực sự "xâu chuỗi" chúng lại với nhau.
Xác định một số ký hiệu
, là hàm sigmoid
,
S , là hàm softmax
y , là vector thực một nhãn
Sau đó, theo quy tắc chuỗi,
Độ dốc cá nhân là:
∂q
Bây giờ chúng ta phải xâu chuỗi các định nghĩa lại với nhau. Trong một biến đơn giản, điều này thật dễ dàng, chúng ta chỉ cần nhân mọi thứ lại với nhau. Trong các vectơ, tôi không chắc nên sử dụng phép nhân phần tử hay phép nhân ma trận.
Trong đó là phép nhân các phần tử của vectơ và là một ma trận nhân. Sự kết hợp các hoạt động này là cách duy nhất mà tôi dường như có thể xâu chuỗi chúng lại với nhau để có được một vectơ kích thước , mà tôi biết phải có.1 ⋅ D x ∂ J
Câu hỏi của tôi là: cách nguyên tắc để tôi tìm ra toán tử nào sẽ sử dụng? Tôi đặc biệt bối rối bởi sự cần thiết của yếu tố khôn ngoan giữa và . h
Cảm ơn!