Đơn vị GRU đầy đủ
c~t= tanh( Wc[ Gr* ct - 1, xt] + bc)
Gbạn= σ( Wbạn[ ct - 1, xt] + bbạn)
Gr= σ( Wr[ ct - 1, xt] + br)
ct= Gbạn* c~t+ ( 1 - Gbạn) * Ct - 1
mộtt= ct
Đơn vị LSTM
c~t= tanh( Wc[ mộtt - 1, xt] + bc)
Gbạn= σ( Wbạn[ mộtt - 1, xt] + bbạn)
Gđụ= σ( Wđụ[ mộtt - 1, xt] + bđụ)
Go= σ( Wo[ mộtt - 1, xt] + bo)
ct= Gbạn* c~t+ Gđụ* ct - 1
mộtt= Go∗ t a n h ( ct)
Như có thể thấy từ các phương trình LSTM có một cổng cập nhật riêng và cổng quên. Điều này rõ ràng làm cho các LSTM phức tạp hơn nhưng đồng thời cũng phức tạp hơn. Không có cách đơn giản để quyết định sử dụng cho trường hợp sử dụng cụ thể của bạn. Bạn luôn phải làm thử và lỗi để kiểm tra hiệu suất. Tuy nhiên, vì GRU đơn giản hơn LSTM, GRU sẽ mất ít thời gian hơn để đào tạo và hiệu quả hơn.
Tín dụng: Andrew Ng