Tại sao chúng ta sử dụng các đơn vị tuyến tính chỉnh lưu (ReLU) với các mạng thần kinh? Làm thế nào để cải thiện mạng lưới thần kinh?
Tại sao chúng ta nói rằng ReLU là một chức năng kích hoạt? Không phải là chức năng kích hoạt softmax cho các mạng thần kinh? Tôi đoán rằng chúng tôi sử dụng cả hai, ReLU và softmax, như thế này:
nơ-ron 1 có đầu ra softmax ----> ReLU trên đầu ra của nơ-ron 1, là
đầu vào của nơ-ron 2 ---> nơ-ron 2 có đầu ra softmax -> ...
do đó, đầu vào của nơron 2 về cơ bản là ReLU (softmax (x1)). Điều này có đúng không?