Backpropagation với Softmax / Cross Entropy

40

Tôi đang cố gắng hiểu làm thế nào backpropagation hoạt động cho lớp đầu ra softmax / cross-entropy.

Hàm lỗi entropy chéo là

E (t, o) = - \sum_{j} t_{j} \log o_{j}

$E(t,o)=-\sum_j t_j \log o_j$

với và là mục tiêu và đầu ra tại nơron , tương ứng. Tổng là trên mỗi nơ ron trong lớp đầu ra. chính là kết quả của hàm softmax: $t$ $o$ $j$ $o_j$

o_{j} = s o f t m a x (z_{j}) = \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$o_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}}$

Một lần nữa, tổng là trên mỗi nơ ron trong lớp đầu ra và là đầu vào của nơ ron : $z_j$ $j$

z_{j} = \sum_{i} w_{i j} o_{i} + b

$z_j=\sum_i w_{ij}o_i+b$

Đó là tổng trên tất cả các nơ-ron ở lớp trước với đầu ra tương ứng và trọng lượng đối với nơ-ron cộng với một sai lệch . $o_i$ $w_{ij}$ $j$ $b$

Bây giờ, để cập nhật trọng số kết nối một nơron ở lớp đầu ra với một nơron ở lớp trước, tôi cần tính đạo hàm riêng của hàm lỗi bằng quy tắc chuỗi: $w_{ij}$ $j$ $i$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

với là đầu vào của nơ ron . $z_j$ $j$

Thuật ngữ cuối cùng khá đơn giản. Vì chỉ có một trọng số giữa và , nên đạo hàm là: $i$ $j$

\frac{\partial z_{j}}{\partial w_{i j}} = o_{i}

$\frac{\partial z_j} {\partial w_{ij}}=o_i$

Thuật ngữ đầu tiên là đạo hàm của hàm lỗi đối với đầu ra : $o_j$

\frac{\partial E}{\partial o_{j}} = \frac{- t_{j}}{o_{j}}

$\frac{\partial E} {\partial o_j} = \frac{-t_j}{o_j}$

Thuật ngữ giữa là đạo hàm của hàm softmax đối với đầu vào của nó khó hơn: $z_j$

\frac{\partial o_{j}}{\partial z_{j}} = \frac{\partial}{\partial z_{j}} \frac{e^{z_{j}}}{\sum_{j} e^{z_{j}}}

$\frac{\partial o_j} {\partial z_{j}}=\frac{\partial} {\partial z_{j}} \frac{e^{z_j}}{\sum_j e^{z_j}}$

Giả sử chúng ta có ba nơ ron đầu ra tương ứng với các lớp thì là: $a,b,c$ $o_b = softmax(b)$

o_{b} = \frac{e^{z_{b}}}{\sum e^{z}} = \frac{e^{z_{b}}}{e^{z_{a}} + e^{z_{b}} + e^{z_{c}}}

$o_b=\frac{e^{z_b}}{\sum e^{z}}=\frac{e^{z_b}}{e^{z_a}+e^{z_b}+e^{z_c}}$

và đạo hàm của nó bằng cách sử dụng quy tắc thương:

\frac{\partial o_{b}}{\partial z_{b}} = \frac{e^{z_{b}} * \sum e^{z} - (e^{z_{b}})^{2}}{(\sum_{j} e^{z})^{2}} = \frac{e^{z_{b}}}{\sum e^{z}} - \frac{(e^{z_{b}})^{2}}{(\sum e^{z})^{2}}

$\frac{\partial o_b} {\partial z_{b}}=\frac{e^{z_b}*\sum e^z - (e^{z_b})^2}{(\sum_j e^{z})^2}=\frac{e^{z_b}}{\sum e^z}-\frac{(e^{z_b})^2}{(\sum e^z)^2}$

= s o f t m a x (b) - s o f t m a x^{2} (b) = o_{b} - o_{b}^{2} = o_{b} (1 - o_{b})

$=softmax(b)-softmax^2(b)=o_b-o_b^2=o_b(1-o_b)$ Quay lại thuật ngữ giữa cho backpropagation, điều này có nghĩa là:

\frac{\partial o_{j}}{\partial z_{j}} = o_{j} (1 - o_{j})

$\frac{\partial o_j} {\partial z_{j}}=o_j(1-o_j)$

Đặt tất cả lại với nhau tôi nhận được

\frac{\partial E}{\partial w_{i j}} = \frac{- t_{j}}{o_{j}} * o_{j} (1 - o_{j}) * o_{i} = - t_{j} (1 - o_{j}) * o_{i}

$\frac{\partial E} {\partial w_{ij}}= \frac{-t_j}{o_j}*o_j(1-o_j)*o_i=-t_j(1-o_j)*o_i$

điều đó có nghĩa là, nếu mục tiêu cho lớp này là , thì tôi sẽ không cập nhật các trọng số cho việc này. Điều đó không có vẻ đúng. $t_j=0$

Điều tra về điều này tôi thấy những người có hai biến thể cho dẫn xuất softmax, một biến thể trong đó và biến thể khác cho , như ở đây hoặc ở đây . $i=j$ $i\ne j$

Nhưng tôi không thể hiểu điều này. Ngoài ra, tôi thậm chí không chắc đây có phải là nguyên nhân gây ra lỗi của mình không, đó là lý do tại sao tôi đăng tất cả các tính toán của mình. Tôi hy vọng ai đó có thể làm rõ tôi đang thiếu thứ gì hoặc sai.

— micha
nguồn

Các liên kết bạn đã cung cấp đang tính toán đạo hàm liên quan đến đầu vào, trong khi bạn tính đạo hàm liên quan đến các trọng số.

— Jenkar

35

Lưu ý: Tôi không phải là một chuyên gia về backprop, nhưng bây giờ đã đọc một chút, tôi nghĩ rằng cảnh báo sau là phù hợp. Khi đọc bài báo hay cuốn sách trên lưới thần kinh, nó không phải là không phổ biến cho các dẫn xuất phải được viết bằng cách kết hợp các tiêu chuẩn ký hiệu tổng / index , ký hiệu ma trận , và ký hiệu đa-index (bao gồm kết hợp cả hai cuối cùng cho các dẫn xuất tensor-tensor ). Thông thường ý định là điều này nên được "hiểu từ ngữ cảnh", vì vậy bạn phải cẩn thận!

Tôi nhận thấy một vài sự không nhất quán trong dẫn xuất của bạn. Tôi thực sự không làm mạng lưới thần kinh, vì vậy những điều sau đây có thể không chính xác. Tuy nhiên, đây là cách tôi sẽ đi về vấn đề.

Trước tiên, bạn cần tính đến tổng của và bạn không thể giả sử mỗi thuật ngữ chỉ phụ thuộc vào một trọng số. Vì vậy, lấy độ dốc của đối với thành phần của , chúng ta có $E$ $E$ $k$ $z$

E = - \sum_{j} t_{j} \log o_{j} ⟹ \frac{\partial E}{\partial z_{k}} = - \sum_{j} t_{j} \frac{\partial \log o_{j}}{\partial z_{k}}

$E=-\sum_jt_j\log o_j\implies\frac{\partial E}{\partial z_k}=-\sum_jt_j\frac{\partial \log o_j}{\partial z_k}$

Sau đó, biểu thị là chúng ta có trong đó là Đồng bằng Kronecker . Sau đó, độ dốc của mẫu số softmax là cung cấp cho hoặc, mở rộng nhật ký Lưu ý rằng đạo hàm tương ứng với , một tùy ý $o_j$

o_{j} = \frac{1}{Ω} e^{z_{j}}, Ω = \sum_{i} e^{z_{i}} ⟹ \log o_{j} = z_{j} - \log Ω

$o_j=\tfrac{1}{\Omega}e^{z_j} \,,\, \Omega=\sum_ie^{z_i} \implies \log o_j=z_j-\log\Omega$

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - \frac{1}{Ω} \frac{\partial Ω}{\partial z_{k}}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-\frac{1}{\Omega}\frac{\partial\Omega}{\partial z_k}$

δ_{j k}

$\delta_{jk}$

\frac{\partial Ω}{\partial z_{k}} = \sum_{i} e^{z_{i}} δ_{i k} = e^{z_{k}}

$\frac{\partial\Omega}{\partial z_k}=\sum_ie^{z_i}\delta_{ik}=e^{z_k}$

\frac{\partial \log o_{j}}{\partial z_{k}} = δ_{j k} - o_{k}

$\frac{\partial \log o_j}{\partial z_k}=\delta_{jk}-o_k$

\frac{\partial o_{j}}{\partial z_{k}} = o_{j} (δ_{j k} - o_{k})

$\frac{\partial o_j}{\partial z_k}=o_j(\delta_{jk}-o_k)$

z_{k}

$z_k$ thành phần của , cung cấp thuật ngữ ( chỉ khi ).

z

$z$

δ_{j k}

$\delta_{jk}$

= 1

$=1$

k = j

$k=j$

Vì vậy, độ dốc của với là trong đó là hằng số (đối với một vectơ cho ). $E$ $z$

\frac{\partial E}{\partial z_{k}} = \sum_{j} t_{j} (o_{k} - δ_{j k}) = o_{k} (\sum_{j} t_{j}) - t_{k} ⟹ \frac{\partial E}{\partial z_{k}} = o_{k} τ - t_{k}

$\frac{\partial E}{\partial z_k}=\sum_jt_j(o_k-\delta_{jk})=o_k\left(\sum_jt_j\right)-t_k \implies \frac{\partial E}{\partial z_k}=o_k\tau-t_k$

τ = \sum_{j} t_{j}

$\tau=\sum_jt_j$

t

$t$

Điều này cho thấy sự khác biệt đầu tiên so với kết quả của bạn: không còn nhân . Lưu ý rằng đối với trường hợp điển hình trong đó là "một nóng", chúng tôi có (như đã lưu ý trong liên kết đầu tiên của bạn). $t_k$ $o_k$ $t$ $\tau=1$

Một sự không nhất quán thứ hai, nếu tôi hiểu chính xác, đó là " " được nhập vào dường như không phải là " " được xuất ra từ softmax. Tôi sẽ nghĩ rằng nó có ý nghĩa hơn rằng điều này thực sự "trở lại" trong kiến trúc mạng? $o$ $z$ $o$

Gọi vectơ này là , sau đó chúng ta có $y$

z_{k} = \sum_{i} w_{i k} y_{i} + b_{k} ⟹ \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{i} y_{i} \frac{\partial w_{i k}}{\partial w_{p q}} = \sum_{i} y_{i} δ_{i p} δ_{k q} = δ_{k q} y_{p}

$z_k=\sum_iw_{ik}y_i+b_k \implies \frac{\partial z_k}{\partial w_{pq}}=\sum_iy_i\frac{\partial w_{ik}}{\partial w_{pq}}=\sum_iy_i\delta_{ip}\delta_{kq}=\delta_{kq}y_p$

Cuối cùng, để có được độ dốc của đối với ma trận , chúng tôi sử dụng quy tắc chuỗi đưa ra biểu thức cuối cùng -hot , tức là ) trong đó là đầu vào ở mức thấp nhất (ví dụ của bạn). $E$ $w$

\frac{\partial E}{\partial w_{p q}} = \sum_{k} \frac{\partial E}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}} = \sum_{k} (o_{k} τ - t_{k}) δ_{k q} y_{p} = y_{p} (o_{q} τ - t_{q})

$\frac{\partial E}{\partial w_{pq}}=\sum_k\frac{\partial E}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}=\sum_k(o_k\tau-t_k)\delta_{kq}y_p=y_p(o_q\tau-t_q)$

t

$t$

τ = 1

$\tau=1$

\frac{\partial E}{\partial w_{i j}} = y_{i} (o_{j} - t_{j})

$\frac{\partial E}{\partial w_{ij}}=y_i(o_j-t_j)$

y

$y$

Vì vậy, điều này cho thấy sự khác biệt thứ hai so với kết quả của bạn: " " có lẽ nên từ cấp dưới , mà tôi gọi là , thay vì cấp trên (là ). $o_i$ $z$ $y$ $z$ $o$

Hy vọng điều này sẽ giúp. Liệu kết quả này có vẻ phù hợp hơn?

Cập nhật: Đáp lại truy vấn từ OP trong các bình luận, đây là phần mở rộng của bước đầu tiên. Đầu tiên, lưu ý rằng quy tắc chuỗi vectơ yêu cầu tổng kết (xem tại đây ). Thứ hai, để chắc chắn nhận được tất cả các thành phần gradient, bạn nên luôn luôn giới thiệu một chữ cái đăng ký mới cho thành phần trong mẫu số của đạo hàm riêng. Vì vậy, để viết đầy đủ gradient với quy tắc chuỗi đầy đủ, chúng ta có và vì vậy
$\frac{\partial E}{\partial w_{p q}} = \sum_{i} \frac{\partial E}{\partial o_{i}} \frac{\partial o_{i}}{\partial w_{p q}}$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \frac{\partial E}{\partial o_i}\frac{\partial o_i}{\partial w_{pq}}$ $\frac{\partial o_{i}}{\partial w_{p q}} = \sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}}$ $\frac{\partial o_i}{\partial w_{pq}}=\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}$ $\frac{\partial E}{\partial w_{p q}} = \sum_{i} [\frac{\partial E}{\partial o_{i}} (\sum_{k} \frac{\partial o_{i}}{\partial z_{k}} \frac{\partial z_{k}}{\partial w_{p q}})]$ $\frac{\partial E}{\partial w_{pq}}=\sum_i \left[ \frac{\partial E}{\partial o_i}\left(\sum_k \frac{\partial o_i}{\partial z_k}\frac{\partial z_k}{\partial w_{pq}}\right) \right]$ Trong thực tế, tổng cộng giảm, vì bạn nhận được rất nhiều điều khoản . Mặc dù nó liên quan đến rất nhiều tổng kết và đăng ký có thể "thêm", sử dụng quy tắc chuỗi đầy đủ sẽ đảm bảo bạn luôn nhận được kết quả chính xác. $\delta_{ab}$

— GeoMatt22
nguồn

Tôi không chắc chắn làm thế nào cộng đồng "Backprop / AutoDiff" thực hiện những vấn đề này, nhưng tôi thấy bất cứ khi nào tôi cố gắng thực hiện các phím tắt, tôi có thể mắc lỗi. Vì vậy, tôi cuối cùng đã làm như ở đây, viết tất cả mọi thứ dưới dạng tổng kết với đăng ký đầy đủ, và luôn giới thiệu các đăng ký mới cho mỗi công cụ phái sinh. (Tương tự như câu trả lời của tôi ở đây ... Tôi hy vọng tôi ít nhất sẽ đưa ra kết quả chính xác vào cuối!)

— GeoMatt22

Cá nhân tôi thấy rằng bạn viết tất cả mọi thứ xuống làm cho nó dễ dàng hơn để làm theo. Kết quả nhìn đúng với tôi.

— Jenkar

Mặc dù tôi vẫn đang cố gắng để hiểu đầy đủ từng bước của bạn, tôi đã nhận được một số hiểu biết có giá trị giúp tôi với bức tranh tổng thể. Tôi đoán tôi cần đọc thêm về chủ đề phái sinh và tổng. Nhưng nhờ lời khuyên của bạn để tính đến tổng kết trong E, tôi đã nghĩ ra điều này:

— micha

cho hai kết quả và với lỗi entropy chéo là Sau đó đạo hàm là phù hợp với kết quả của bạn ... tính đến việc bạn không có dấu trừ trước tổng lỗi

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

o_{j_{1}} = \frac{e^{z_{j_{1}}}}{Ω}

$o_{j_1}=\frac{e^{z_{j_1}}}{\Omega}$

Ω = e^{z_{j_{1}}} + e^{z_{j_{2}}}

$\Omega=e^{z_{j_1}}+e^{z_{j_2}}$

E = - (t_{1} l o g o_{j_{1}} + t_{2} l o g o_{j_{2}}) = - (t_{1} (z_{j_{1}} - l o g (Ω)) + t_{2} (z_{j_{2}} - l o g (Ω)))

$E=-(t_1 log o_{j_1}+t_2 log o_{j_2})=-(t_1(z_{j_1}-log(\Omega))+t_2(z_{j_2}-log(\Omega)))$

\frac{\partial E}{\partial (z_{j_{1}}} = - (t_{1} - t_{1} \frac{e^{z_{j_{1}}}}{Ω} - t_{2} \frac{e^{z_{j_{2}}}}{Ω}) = - t_{1} + o_{j_{1}} (t_{1} + t_{2})

$\frac{\partial E}{\partial (z_{j_1}}=-(t_1-t_1 \frac{e^{z_{j_1}}}{\Omega}-t_2 \frac{e^{z_{j_2}}}{\Omega})=-t_1+o_{j_1}(t_1+t_2)$

— micha

Nhưng một câu hỏi nữa tôi có là: Thay vì , nói chung là những gì bạn đã giới thiệu với backpropagation, bạn đã tính: như muốn hủy bỏ . Tại sao cách này dẫn đến kết quả đúng?

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial o_{j}} \frac{\partial o_{j}}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\frac{\partial E}{\partial w_{i j}} = \frac{\partial E}{\partial z_{j}} \frac{\partial z_{j}}{\partial w_{i j}}

$\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}}$

\partial o_{j}

$\partial o_j$

— micha

12

Mặc dù câu trả lời của @ GeoMatt22 là chính xác, cá nhân tôi thấy rất hữu ích khi giảm vấn đề thành ví dụ về đồ chơi và vẽ một bức tranh:

Sau đó tôi đã xác định các hoạt động mỗi nút được tính toán, xử lý các 's và ' s như đầu vào cho một 'mạng' ( là một vector một nóng đại diện cho nhãn lớp của các điểm dữ liệu): $h$ $w$ $\mathbf{t}$

L = - t_{1} \log o_{1} - t_{2} \log o_{2}

$L=-t_1\log o_1 -t_2\log o_2$

o_{1} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})}

$o_1 = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}$

o_{2} = \frac{\exp (y_{2})}{\exp (y_{1}) + \exp (y_{2})}

$o_2 = \frac{\exp(y_2)}{\exp(y_1) + \exp(y_2)}$

y_{1} = w_{11} h_{1} + w_{21} h_{2} + w_{31} h_{3}

$y_1 = w_{11}h_1 + w_{21}h_2 + w_{31}h_3$

y_{2} = w_{12} h_{1} + w_{22} h_{2} + w_{32} h_{3}

$y_2 = w_{12}h_1 + w_{22}h_2 + w_{32}h_3$

Nói rằng tôi muốn tính đạo hàm của tổn thất đối với . Tôi chỉ có thể sử dụng hình ảnh của mình để tìm lại đường đi từ mất đến trọng lượng mà tôi quan tâm (đã xóa cột thứ hai của 'cho rõ ràng): $w_{21}$ $w$

Sau đó, tôi chỉ có thể tính toán các dẫn xuất mong muốn. Lưu ý rằng có hai đường dẫn qua dẫn đến , vì vậy tôi cần tính tổng các đạo hàm đi qua từng đường dẫn đó. $y_1$ $w_{21}$

\frac{\partial L}{\partial o_{1}} = - \frac{t_{1}}{o_{1}}

$\frac{\partial L}{\partial o_1} = -\frac{t_1}{o_1}$

\frac{\partial L}{\partial o_{2}} = - \frac{t_{2}}{o_{2}}

$\frac{\partial L}{\partial o_2} = -\frac{t_2}{o_2}$

\frac{\partial o_{1}}{\partial y_{1}} = \frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})} - {(\frac{\exp (y_{1})}{\exp (y_{1}) + \exp (y_{2})})}^{2} = o_{1} (1 - o_{1})

$\frac{\partial o_1}{\partial y_1} = \frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)} - \left(\frac{\exp(y_1)}{\exp(y_1) + \exp(y_2)}\right)^2 = o_1(1 - o_1)$

\frac{\partial o_{2}}{\partial y_{1}} = \frac{- \exp (y_{2}) \exp (y_{1})}{(\exp (y_{1}) + \exp (y_{2}))^{2}} = - o_{2} o_{1}

$\frac{\partial o_2}{\partial y_1} = \frac{-\exp(y_2)\exp(y_1)}{(\exp(y_1) + \exp(y_2))^2} = -o_2o_1$

\frac{\partial y_{1}}{\partial w_{21}} = h_{2}

$\frac{\partial y_1}{\partial w_{21}} = h_2$

Cuối cùng, đặt quy tắc chuỗi cùng nhau:

\begin{aligned} \frac{\partial L}{\partial w_{21}} & = \frac{\partial L}{\partial o_{1}} \frac{\partial o_{1}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} + \frac{\partial L}{\partial o_{2}} \frac{\partial o_{2}}{\partial y_{1}} \frac{\partial y_{1}}{\partial w_{21}} \\ = \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2} \\ = h_{2} (t_{2} o_{1} - t_{1} + t_{1} o_{1}) \\ = h_{2} (o_{1} (t_{1} + t_{2}) - t_{1}) \\ = h_{2} (o_{1} - t_{1}) \end{aligned}

$\begin{align} \frac{\partial L}{\partial w_{21}} &= \frac{\partial L}{\partial o_1}\frac{\partial o_1}{\partial y_1}\frac{\partial y_1}{\partial w_{21}} + \frac{\partial L}{\partial o_2}\frac{\partial o_2}{\partial y_1}\frac{\partial y_1}{\partial w_{21}}\\ &= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\ &= h_2(t_2 o_1 - t_1 + t_1 o_1)\\ &= h_2(o_1(t_1 + t_2) - t_1)\\ &= h_2(o_1 - t_1) \end{align}$

Lưu ý rằng trong bước cuối cùng, vì vectơ là một vectơ nóng. $t_1 + t_2 = 1$ $\mathbf{t}$

— Vivek Subramanian
nguồn

Đây là những gì cuối cùng đã xóa điều này cho tôi! Giải thích tuyệt vời và thanh lịch !!!!

— SantoshGupta7

2

Tôi rất vui vì cả hai bạn đều thích và được hưởng lợi từ việc đọc bài viết của tôi! Nó cũng hữu ích cho tôi để viết nó ra và giải thích nó.

— Vivek Subramanian

@VivekSubramanian có nên thay vào đó?

= \frac{- t_{1}}{o_{1}} [o_{1} (1 - o_{1})] h_{2} + \frac{- t_{2}}{o_{2}} (- o_{2} o_{1}) h_{2}

$= \frac{-t_1}{o_1}[o_1(1 - o_1)]h_2 + \frac{-t_2}{o_2}(-o_2 o_1)h_2\\$

— koryakinp

Bạn nói đúng - đó là một lỗi đánh máy! Tôi sẽ thay đổi.

— Vivek Subramanian

Điều tôi không hiểu ở đây là bạn cũng gán các bản ghi (điểm không được tính) cho một số tế bào thần kinh. (o là các bản ghi mềm (dự đoán) và y là các bản ghi trong trường hợp của bạn). Tuy nhiên, đây không phải là trường hợp bình thường, phải không? Nhìn vào hình ảnh này (oOC1 là dự đoán và o_in1 là nhật ký) vậy làm thế nào có thể trong trường hợp này làm thế nào bạn có thể tìm đạo hàm riêng của o2 đối với y1?

— ARAT

6

Thay cho tôi muốn một chữ cái có chữ hoa khác biệt với chữ thường của nó. Vì vậy, hãy để tôi thay thế . Ngoài ra, hãy sử dụng biến để chỉ định từ lớp trước. $\{o_i\},\,$ $\{y_i\}$ $\{p_i\}$ $\{o_i\}$

Hãy là ma trận đường chéo có đường chéo bằng vector , tức là Sử dụng này biến ma trận mới và Frobenius Nội Sản phẩm chúng tôi có thể tính toán gradient của wrt . $Y$ $y$

Y = D i a g (y)

$Y={\rm Diag}(y)$

E

$E$

W

$W$

\begin{aligned} z & = W p + b & d z = d W p \\ y & = s o f t m a x (z) & d y = (Y - y y^{T}) d z \\ E & = - t : \log (y) & d E = - t : Y^{- 1} d y \\ d E & = - t : Y^{- 1} (Y - y y^{T}) d z \\ = - t : (I - 1 y^{T}) d z \\ = - t : (I - 1 y^{T}) d W p \\ = (y 1^{T} - I) t p^{T} : d W \\ = ((1^{T} t) y p^{T} - t p^{T}) : d W \\ \frac{\partial E}{\partial W} & = (1^{T} t) y p^{T} - t p^{T} \end{aligned}

$\eqalign{ z &= Wp+b &dz= dWp \cr y &= {\rm softmax}(z) &dy = (Y-yy^T)\,dz \cr E &= -t:\log(y) &dE = -t:Y^{-1}dy \cr\cr dE &= -t:Y^{-1}(Y-yy^T)\,dz \cr &= -t:(I-1y^T)\,dz \cr &= -t:(I-1y^T)\,dW\,p \cr &= (y1^T-I)tp^T:dW \cr &= ((1^Tt)yp^T - tp^T):dW \cr\cr \frac{\partial E}{\partial W} &= (1^Tt)yp^T - tp^T \cr }$

— thẳng thắn
nguồn

6

Đây là một trong những ghi chú rõ ràng và được viết tốt nhất mà tôi đã xem trên web giải thích về "tính toán các công cụ phái sinh trong thuật toán backpropagation với hàm mất entropy chéo" .

— yottabytt
nguồn

Trong pdf đã cho, làm thế nào mà phương trình 22 trở thành phương trình 23? Như cách thức Tổng kết (k! = I) có dấu âm. Nó không nên có một dấu hiệu tích cực? Giống như Summation(Fn)(For All K) = Fn(k=i) + Summation(Fn)(k!=i)nên được xảy ra theo sự hiểu biết của tôi.

— faizan

1

Đây là một liên kết giải thích softmax và dẫn xuất của nó.

Nó giải thích lý do sử dụng i = j và i! = J.

— S. Muhammad H. Mustafa
nguồn

Bạn nên cung cấp một câu trả lời độc lập, tối thiểu, trong trường hợp liên kết bị hỏng trong tương lai. Mặt khác, điều này có thể không còn giúp người dùng khác trong tương lai.

— luchonacho

0

Các câu trả lời khác đã cung cấp cách tính chính xác cho đạo hàm, nhưng chúng không chỉ ra bạn đã sai ở đâu. Trong thực tế, luôn là 1 trong phương trình cuối cùng của bạn, vì bạn đã giả sử rằng lấy nút đó của mục tiêu 1 trong đầu ra của bạn; của các nút khác có các dạng hàm xác suất khác nhau, do đó dẫn đến các dạng đạo hàm khác nhau, vì vậy bây giờ bạn nên hiểu tại sao người khác lại đối xử với và khác nhau. $t_j$ $o_j$ $o_j$ $i=j$ $i\neq j$

— kuixiong
nguồn