Ở đây , câu trả lời đề cập đến việc biến mất và làm nổ các gradient có sigmoid
chức năng kích hoạt giống như nhưng tôi đoán, Relu
có một nhược điểm và đó là giá trị mong đợi của nó. không có giới hạn cho đầu ra của Relu
và vì vậy giá trị mong đợi của nó không bằng không. Tôi nhớ thời trước khi phổ biến Relu
nó tanh
là phổ biến nhất trong số các chuyên gia máy học hơn là sigmoid
. Lý do là giá trị kỳ vọng của giá trị tanh
bằng 0 và nó giúp việc học ở các lớp sâu hơn nhanh hơn trong mạng lưới thần kinh. Relu
không có đặc điểm này, nhưng tại sao nó hoạt động tốt như vậy nếu chúng ta đặt lợi thế phái sinh của nó sang một bên. Hơn nữa, tôi đoán đạo hàm cũng có thể bị ảnh hưởng. Bởi vì các kích hoạt (đầu ra củaRelu
) có liên quan để tính toán các quy tắc cập nhật.
CNN
bình thường hóa đầu ra của relu
không phổ biến? Ít nhất tôi chưa bao giờ thấy điều đó.