Có bao nhiêu tham số trong một lớp mạng thần kinh tái phát (GRU) đơn vị lặp lại (GRU)?

Tiêu đề nói lên tất cả - có bao nhiêu tham số có thể huấn luyện trong một lớp GRU? Loại câu hỏi này xuất hiện rất nhiều khi cố gắng so sánh các mô hình của các loại lớp RNN khác nhau, chẳng hạn như các đơn vị bộ nhớ ngắn hạn (LSTM) so với GRU, về hiệu suất theo tham số. Do số lượng lớn hơn các tham số có thể huấn luyện nói chung sẽ làm tăng khả năng học hỏi của mạng, so sánh các mô hình thay thế trên cơ sở từng tham số là so sánh táo bạo về hiệu quả tương đối của GRU và LSTM.

neural-networks rnn gru

— Sycorax nói phục hồi Monica
nguồn

Theo Rahul Dey và Fathi M. Salem, " Biến thể cổng của đơn vị tái phát Gated (GRU) ":

$3 \times (n^2 + nm + n)$

$m$ $n$ là kích thước đầu ra. Điều này là do thực tế là có ba bộ hoạt động yêu cầu ma trận trọng số của các kích thước này.

— Sycorax nói phục hồi Monica
nguồn