Độ dốc biến mất được giải thích tốt nhất trong trường hợp một chiều. Đa chiều phức tạp hơn nhưng về cơ bản là tương tự nhau. Bạn có thể xem lại nó trong bài báo xuất sắc này [1].
Giả sử chúng ta có một trạng thái ẩn tại thời điểm bước t . Nếu chúng ta làm cho những thành kiến những điều đơn giản và loại bỏ và các đầu vào, chúng ta có
h t = σ ( w h t - 1 ) .
Sau đó, bạn có thể chỉ ra rằnghtt
ht= σ( w ht - 1) .
t'-t
∂ht'∂ht= ∏k = 1t'- tw σ'( w ht'- k)= wt'- t! ! !Πk = 1t'- tσ'( w ht'- k)
Nhân tố được đánh dấu bằng !!! là một trong những quan trọng.
Nếu trọng lượng không bằng 1, nó sẽ phân rã về 0 nhanh theo cấp số nhân trong , hoặc tăng nhanh theo cấp số nhânt'- t .
Trong LSTM, bạn có trạng thái ô . Đạo hàm có dạng
Ở đây là đầu vào cho cổng quên. Như bạn có thể thấy, không có yếu tố phân rã nhanh theo cấp số nhân liên quan. Do đó, có ít nhất một đường dẫn mà độ dốc không biến mất. Đối với đạo hàm hoàn chỉnh, xem [2].∂ s t 'St
∂St'∂St= ∏k = 1t'- tσ( vt + k) .
vt
[1] Pascanu, Razvan, Tomas Mikolov và Yoshua Bengio. "Về khó khăn của việc đào tạo mạng lưới thần kinh tái phát." ICML (3) 28 (2013): 1310-1318.
[2] Bayer, Justin Simon. Trình bày trình tự học tập. Tiêu tan. München, Technische Đại học München, Diss., 2015, 2015.