Cấu trúc của mạng nơ ron tái phát (LSTM, GRU)

9

Tôi đang cố gắng để hiểu kiến trúc của RNNs. Tôi đã tìm thấy hướng dẫn này rất hữu ích: http://colah.github.io/posts/2015-08-Under Hiểu-LSTMs /

Đặc biệt là hình ảnh này:

Làm thế nào để điều này phù hợp với một mạng chuyển tiếp? Có phải hình ảnh này chỉ là một nút khác trong mỗi lớp?

neural-networks lstm

— Adam12344
nguồn

Hay đây là những gì mọi tế bào thần kinh trông giống như?

— Adam12344

8

$h_t$ $t$ $x_t$ $h_{t-1}$

$h_t$

— felipefg
nguồn

h_{t}

$h_t$

c_{t}

$c_t$

x_{t}

$x_t$

6

Trong ảnh của bạn A là một lớp ẩn duy nhất với một Neuron ẩn duy nhất. Từ trái sang phải là trục thời gian và ở phía dưới bạn nhận được đầu vào mỗi lần. Ở đầu mạng có thể được mở rộng hơn nữa bằng cách thêm các lớp.

Nếu bạn mở mạng này kịp thời, như được hiển thị trực quan trong ảnh của bạn (từ trái sang phải trục thời gian được mở ra) thì bạn sẽ có được một mạng tiếp theo với T (tổng số bước thời gian) mỗi lớp chứa một nút đơn (nơ ron) như được vẽ ở khối A ở giữa.

Hy vọng điều này trả lời câu hỏi của bạn.

— Sjoerd
nguồn

3

Tôi muốn giải thích sơ đồ đơn giản đó trong một bối cảnh tương đối phức tạp: cơ chế chú ý trong bộ giải mã của mô hình seq2seq.

$h_0$ $h_{k-1}$ $x_i$ . Tôi minh họa vấn đề của bạn bằng cách sử dụng điều này là bởi vì tất cả các trạng thái của dấu thời gian được lưu cho cơ chế chú ý thay vì chỉ bị loại bỏ để có được trạng thái cuối cùng. Nó chỉ là một nơ ron và được xem như một lớp (nhiều lớp có thể được xếp chồng lên nhau để tạo thành một bộ mã hóa hai chiều trong một số mô hình seq2seq để trích xuất thông tin trừu tượng hơn trong các lớp higer).

Sau đó, nó mã hóa câu (với các từ L và mỗi từ được biểu thị dưới dạng một vectơ của hình dạng: embpping_dim chú ý * 1) vào một danh sách các thang đo L (mỗi hình dạng: num_hidden / num_units * 1). Và trạng thái quá khứ đối với bộ giải mã chỉ là vectơ cuối cùng khi câu nhúng có cùng hình dạng của từng mục trong danh sách.

Nguồn hình ảnh: Cơ chế chú ý

— Zhang
nguồn