Câu hỏi được gắn thẻ «bert»

2
Kích hoạt GELU là gì?
Tôi đã xem qua giấy BERT sử dụng GELU (Đơn vị tuyến tính lỗi Gaussian) trong đó nêu phương trình là mà tương ứng với 0,5x (1 + tanh [\ sqrt {2 / π} (x + 0,044715x ^ 3)]) Bạn có thể đơn giản hóa phương trình và giải thích …

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.