Ở đây , câu trả lời đề cập đến việc biến mất và làm nổ các gradient có sigmoidchức năng kích hoạt giống như nhưng tôi đoán, Relucó một nhược điểm và đó là giá trị mong đợi của nó. không có giới hạn cho đầu ra của Reluvà vì vậy giá trị mong đợi của nó không bằng không. Tôi nhớ thời trước khi phổ biến Relunó tanhlà phổ biến nhất trong số các chuyên gia máy học hơn là sigmoid. Lý do là giá trị kỳ vọng của giá trị tanhbằng 0 và nó giúp việc học ở các lớp sâu hơn nhanh hơn trong mạng lưới thần kinh. Relukhông có đặc điểm này, nhưng tại sao nó hoạt động tốt như vậy nếu chúng ta đặt lợi thế phái sinh của nó sang một bên. Hơn nữa, tôi đoán đạo hàm cũng có thể bị ảnh hưởng. Bởi vì các kích hoạt (đầu ra củaRelu) có liên quan để tính toán các quy tắc cập nhật.
CNNbình thường hóa đầu ra của relukhông phổ biến? Ít nhất tôi chưa bao giờ thấy điều đó.