2
Kích hoạt GELU là gì?
Tôi đã xem qua giấy BERT sử dụng GELU (Đơn vị tuyến tính lỗi Gaussian) trong đó nêu phương trình là mà tương ứng với 0,5x (1 + tanh [\ sqrt {2 / π} (x + 0,044715x ^ 3)]) Bạn có thể đơn giản hóa phương trình và giải thích …