Câu hỏi được gắn thẻ «softmax»

Chuẩn hóa hàm mũ biến đổi một vectơ số sao cho tất cả các mục nhập của nó trở thành từ 0 đến 1 và tổng bằng 1. Nó thường được sử dụng làm lớp cuối cùng của mạng nơ-ron thực hiện nhiệm vụ phân loại.


1
Gradient-log-normalizer là gì?
Trong wiki, hàm softmax được định nghĩa là trình chuẩn hóa log-log của phân phối xác suất phân loại . Một lời giải thích một phần cho trình chuẩn hóa log được tìm thấy ở đây , nhưng gradient-log-normalizer dùng để làm gì?
9 softmax 

1
Định nghĩa hàm softmax
Câu hỏi này tiếp theo trên stats.stackexchange.com/q/233658 Mô hình hồi quy logistic cho các lớp {0, 1} là P(y=1|x)=exp(wTx)1+exp(wTx)P(y=0|x)=11+exp(wTx)P(y=1|x)=exp⁡(wTx)1+exp⁡(wTx)P(y=0|x)=11+exp⁡(wTx) \mathbb{P} (y = 1 \;|\; x) = \frac{\exp(w^T x)}{1 + \exp(w^T x)} \\ \mathbb{P} (y = 0 \;|\; x) = \frac{1}{1 + \exp(w^T x)} Rõ ràng các xác suất đó tổng …


2
Đạo hàm của Softmax liên quan đến trọng lượng
Tôi mới học sâu và đang cố gắng tính đạo hàm của hàm sau đối với ma trận ww\mathbf w: p(a)=ew⊤axΣdew⊤dxp(a)=ewa⊤xΣdewd⊤xp(a) = \frac{e^{w_a^\top x}}{\Sigma_{d} e^{w_d^\top x}} Sử dụng quy tắc thương, tôi nhận được: ∂p(a)∂w=xew⊤axΣdew⊤dx−ew⊤axΣdxew⊤dx[Σdew⊤dx]2=0∂p(a)∂w=xewa⊤xΣdewd⊤x−ewa⊤xΣdxewd⊤x[Σdewd⊤x]2=0\frac{\partial p(a)}{\partial w} = \frac{xe^{w_a^\top x}\Sigma_{d} e^{w_d^\top x} - e^{w_a^\top x}\Sigma_{d} xe^{w_d^\top x}}{[\Sigma_{d} e^{w_d^\top x}]^2} = …
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.