Đạo hàm của Softmax liên quan đến trọng lượng

Tôi mới học sâu và đang cố gắng tính đạo hàm của hàm sau đối với ma trận $\mathbf w$ :

p (a) = \frac{e^{w_{a}^{⊤} x}}{Σ_{d} e^{w_{d}^{⊤} x}}

$p(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}}$

Sử dụng quy tắc thương, tôi nhận được:

\frac{\partial p (a)}{\partial w} = \frac{x e^{w_{a}^{⊤} x} Σ_{d} e^{w_{d}^{⊤} x} - e^{w_{a}^{⊤} x} Σ_{d} x e^{w_{d}^{⊤} x}}{[Σ_{d} e^{w_{d}^{⊤} x}]^{2}} = 0

$\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = 0$

Tôi tin rằng tôi đã làm sai điều gì đó, vì chức năng softmax thường được sử dụng làm chức năng kích hoạt trong học tập sâu (và do đó không thể luôn có đạo hàm là $0$ ). Tôi đã xem qua các câu hỏi tương tự , nhưng chúng dường như che đậy phần tính toán này.

Tôi đánh giá cao bất kỳ con trỏ theo hướng đúng.

— 李成震
nguồn

Ký hiệu của bạn không thực sự hoạt động, có lẽ vì bạn chưa giải thích điều gì "

x

$x$ "là hoặc kích thước của

w

$\mathbf{w}$ có thể là. Đó dường như là cốt lõi của vấn đề của bạn, bởi vì bạn xuất hiện để điều trị

x

$x$ như một con số, nhưng điều đó không có ý nghĩa.

— whuber

Lớp ẩn cuối cùng tạo ra các giá trị đầu ra tạo thành một vectơ $\vec x = \mathbf x$ . Lớp tế bào thần kinh đầu ra có nghĩa là để phân loại giữa $K=1,\dots,k$ các danh mục có chức năng kích hoạt SoftMax gán xác suất có điều kiện (đã cho $\mathbf x$ ) cho mỗi người $K$ Thể loại. Trong mỗi nút trong lớp cuối cùng (hoặc ouput), các giá trị được kích hoạt trước (giá trị logit) sẽ bao gồm các sản phẩm vô hướng $\mathbf{w}_j^\top\mathbf{x}$ , Ở đâu $\mathbf w_j\in\{\mathbf{w}_1, \mathbf{w}_2,\dots,\mathbf{w}_k\}$ . Nói cách khác, mỗi loại, $k$ sẽ có một vectơ trọng số khác nhau chỉ vào nó, xác định sự đóng góp của từng phần tử trong đầu ra của lớp trước (bao gồm cả độ lệch), được gói gọn trong $\mathbf x$ . Tuy nhiên, việc kích hoạt lớp cuối cùng này sẽ không diễn ra yếu tố khôn ngoan (ví dụ như có chức năng sigmoid trong mỗi nơron), mà thông qua ứng dụng hàm SoftMax, sẽ ánh xạ một vectơ trong $\mathbb R^k$ đến một vectơ $K$ các phần tử trong [0,1]. Đây là một NN trang điểm để phân loại màu sắc:

Xác định softmax như

σ (j) = = \frac{điểm kinh nghiệm (w_{j}^{⊤} x)}{Σ_{k = = 1}^{K} điểm kinh nghiệm (w_{k}^{⊤} x)} = = \frac{điểm kinh nghiệm (z_{j})}{Σ_{k = = 1}^{K} điểm kinh nghiệm (z_{k})}

$\sigma(j)=\frac{\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)}=\frac{\exp(z_j)}{\sum_{k=1}^K \exp(z_k)}$

Chúng tôi muốn có được đạo hàm riêng đối với một vectơ trọng số $(\mathbf w_i)$ , nhưng trước tiên chúng ta có thể lấy đạo hàm của $\sigma(j)$ đối với logit, tức là $z_i = \mathbf w_i^\top \cdot \mathbf x$ :

\begin{aligned} \frac{\partial}{\partial (w_{Tôi}^{⊤} x)} σ (j) & = = \frac{\partial}{\partial (w_{Tôi}^{⊤} x)} \frac{điểm kinh nghiệm (w_{j}^{⊤} x)}{Σ_{k = = 1}^{K} điểm kinh nghiệm (w_{k}^{⊤} x)} \\ \underset{*}{= =} \frac{\frac{\partial}{\partial (w_{Tôi} ⊤ x)} điểm kinh nghiệm (w_{j}^{⊤} x)}{Σ_{k = = 1}^{K} điểm kinh nghiệm (w_{k}^{⊤} x)} - \frac{điểm kinh nghiệm (w_{j}^{⊤} x)}{{(Σ_{k = = 1}^{K} điểm kinh nghiệm (w_{k}^{⊤} x))}^{2}} \frac{\partial}{\partial (w_{Tôi}^{⊤} x)} Σ_{k = = 1}^{K} điểm kinh nghiệm (w_{k}^{⊤} x) \\ = = \frac{δ_{Tôi j} điểm kinh nghiệm (w_{j}^{⊤} x)}{Σ_{k = = 1}^{K} điểm kinh nghiệm (w_{k}^{⊤} x)} - \frac{điểm kinh nghiệm (w_{j}^{⊤} x)}{Σ_{k = = 1}^{K} điểm kinh nghiệm (w_{k}^{⊤} x)} \frac{điểm kinh nghiệm (w_{Tôi}^{⊤} x)}{Σ_{k = = 1}^{K} điểm kinh nghiệm (w_{k}^{⊤} x)} \\ = = σ (j) (δ_{Tôi j} - σ (Tôi)) \end{aligned}

$\begin{align} \small{\frac{\partial}{\partial( \mathbf{w}_i^\top \mathbf x)}}\sigma(j) &= \small{\frac{\partial}{\partial \left(\mathbf{w}_i^\top \mathbf x\right)}}\;\frac{\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)} \\[2ex] &\underset{*}{=} \frac{\frac{\partial}{\partial (\mathbf{w_i\top \mathbf x)}}\,\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)}\,-\,\frac{\exp(\mathbf w_j^\top \mathbf x)}{\left(\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x) \right)^2}\quad\small{{\frac{\partial}{\partial \left(\mathbf w_i^\top\mathbf x\right)}}}\,\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)\\[2ex] &= \frac{\delta_{ij}\exp(\mathbf{w}_j^\top \mathbf x)}{\sum_{k=1}^K \exp(\mathbf{w}_k^\top\mathbf x)}\,-\,\frac{\exp(\mathbf w_j^\top \mathbf x)}{ \sum_{k=1}^K \exp\left(\mathbf{w}_k^\top\mathbf x \right)} \frac{\exp(\mathbf{w}_i^\top\mathbf x)}{\sum_{k=1}^K \exp\left(\mathbf{w}_k^\top\mathbf x \right)} \\[3ex] &=\sigma(j)\left(\delta_{ij}-\sigma(i)\right) \end{align}$

$* \text{- quotient rule}$

Cảm ơn và (+1) cho Yuntai Kyong vì đã chỉ ra rằng có một chỉ số bị lãng quên trong phiên bản trước của bài đăng và những thay đổi trong mẫu số của softmax đã bị loại bỏ khỏi quy tắc chuỗi sau ...

Theo quy tắc chuỗi,

\begin{aligned} \frac{\partial}{\partial w_{Tôi}} σ (j) & = = Σ_{k = = 1}^{K} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) \frac{\partial}{\partial w_{Tôi}} w_{k}^{⊤} x \\ = = Σ_{k = = 1}^{K} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) δ_{Tôi k} x \\ = = Σ_{k = = 1}^{K} σ (j) (δ_{k j} - σ (k)) δ_{Tôi k} x \end{aligned}

$\begin{align}\frac{\partial}{\partial \mathbf{w}_i}\sigma(j)&= \sum_{k = 1}^K \frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\sigma(j)\quad \frac{\partial}{\partial\mathbf{w}_i}\mathbf{w}_k^\top \mathbf{x}\\[2ex] &=\sum_{k = 1}^K \frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\;\sigma(j)\quad \delta_{ik} \mathbf{x}\\[2ex] &=\sum_{k = 1}^K\sigma(j)\left(\delta_{kj}-\sigma(k)\right)\quad \delta_{ik} \mathbf{x} \end{align}$

Kết hợp kết quả này với phương trình trước:

\frac{\partial}{\partial w_{Tôi}} σ (j) = = σ (j) (δ_{Tôi j} - σ (Tôi)) x

$\bbox[8px, border: 2px solid lime]{\frac{\partial}{\partial \mathbf{w}_i}\sigma(j)=\sigma(j)\left(\delta_{ij}-\sigma(i)\right)\mathbf x}$

— Antoni Parellada
nguồn

1. Con số đẹp nhưng giải thích là khó hiểu. "Lớp ẩn cuối cùng tạo ra các giá trị đầu ra tạo thành một vectơ x⃗ = x." Nhưng x đầu vào chứ không phải đầu ra? 2. "việc kích hoạt lớp cuối cùng này sẽ không diễn ra yếu tố khôn ngoan": điều này rất hữu ích nhưng một số hiểu biết sâu sắc về việc sử dụng hàm số mũ sẽ hữu ích.

— coder.in.me

Tôi đã có một kết quả khác. Cũng thế $\sigma(j)$ phụ thuộc $\mathbf{w}_i$ bên trong mẫu số của softmax, vì vậy không chắc kết quả của Antoni là chính xác.

\begin{aligned} \frac{\partial}{\partial w_{Tôi}} σ (j) & = = \underset{k}{Σ} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) \frac{\partial}{\partial w_{Tôi}} w_{k}^{⊤} x \\ = = \underset{k}{Σ} \frac{\partial}{\partial (w_{k}^{⊤} x)} σ (j) δ_{Tôi k} x \\ = = \underset{k}{Σ} σ (j) (δ_{j k} - σ (k)) δ_{Tôi k} x \\ = = σ (j) (δ_{Tôi j} - σ (Tôi)) x \end{aligned}

$\begin{align}\frac{\partial}{\partial \mathbf{w}_i}\sigma(j)&= \sum_k\frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\;\sigma(j)\; \frac{\partial}{\partial\mathbf{w}_i}\mathbf{w}_k^\top \mathbf{x}\\[2ex] &= \sum_k \frac{\partial}{\partial (\mathbf{w}_k^\top \mathbf x)}\;\sigma(j)\; \delta_{ik} \mathbf{x}\\[2ex] &= \sum_k \sigma(j)\left(\delta_{jk}-\sigma(k)\right)\delta_{ik} \mathbf{x}\\[2ex] &= \sigma(j)\left(\delta_{ij}-\sigma(i)\right) \mathbf{x} \end{align}$

— Yuntai Kỳ
nguồn