Đầu tiên, hãy trình bày những gì chúng ta có và các giả định của chúng ta về hình dạng của các vectơ khác nhau. Để cho,
- |W|là số lượng từ trong vocab
- y và là các vectơ cột có hình dạngx 1y | W |y^|W|
- ui và là các vectơ cột có hình dạng X 1 ( = kích thước của các nhúng)vjDD
- y là vectơ cột được mã hóa một hình nóngx 1|W|
- y^ là vectơ cột dự đoán softmax có hình dạngx 1|W|
- y^Tôi= P( i | c ) = e x p ( uTTôivc)ΣWw = 1e x p ( uTwvc)
- Mất entropy chéo:J= - ΣWi = 1yTôil o g( yTôi^)
- Bạn= [ u1, bạn2, . . . , bạnk, . . . bạnW] là một ma trận gồm các vectơ cột .bạnk
Bây giờ, chúng ta có thể viết
Đơn giản hóa,
Bây giờ, chúng ta biết rằng là một mã hóa nóng, vì vậy tất cả các yếu tố của nó bằng không, ngoại trừ chỉ số tại, giả sử, chỉ số . Điều đó có nghĩa là, chỉ có một thuật ngữ khác không trong tổng kết ở trên tương ứng với và tất cả các thuật ngữ khác trong tổng kết là số không. Vì vậy, chi phí cũng có thể được viết là:
Lưu ý: ở trên là 1.J= - Σi = 1WyTôil o g( e x p ( uTTôivc)ΣWw = 1e x p ( uTwvc))
J= - Σi = 1WyTôi[ bạnTTôivc- l o g( ∑w = 1We x p ( uTwvc) ) ]
ykt hykJ= - yk[ bạnTkvc- l o g( ∑w = 1We x p ( uTwvc) ) ]
yk
Giải quyết cho :
∂J∂vc∂J∂vc= - [ uk- ΣWw = 1e x p ( uTwvc) bạnwΣWx = 1e x p ( uTxvc)]
Có thể được sắp xếp lại dưới dạng:
Sử dụng định nghĩa (6), chúng ta có thể viết lại phương trình trên dưới dạng:
∂J∂vc= ∑w = 1W( e x p ( uTwvc)ΣWx = 1e x p ( uTxvc)bạnw) - bạnk
∂J∂vc= ∑w = 1W( y^wbạnw) - bạnk
Bây giờ hãy xem làm thế nào điều này có thể được viết trong ký hiệu Ma trận. Lưu ý rằng:
- bạnk U . y có thể được viết dưới dạng phép nhân vectơ ma trận:Bạn. y
- Và là một phép biến đổi tuyến tính của vectơ trong được chia tỷ lệ tương ứng bởi . Điều này một lần nữa có thể được viết làΣWw = 1( y^wbạnw)bạnwBạnyy^wBạn. y^
Vì vậy, toàn bộ điều có thể được viết ngắn gọn là:
U[y^−y]
Cuối cùng, lưu ý rằng chúng ta giả sử s là một vectơ cột. Nếu chúng tôi đã bắt đầu với các vectơ hàng, chúng tôi sẽ nhận được , giống như những gì bạn đang tìm kiếm.uiUT[y^−y]