Câu trả lời:
Bạn gần như đúng! ReLU có một vấn đề với sự biến mất độ dốc, nhưng chỉ ở một phía, vì vậy chúng tôi gọi nó là một vấn đề khác: 'vấn đề ReLU sắp chết'. Xem phản hồi tràn ngăn xếp này để biết thêm thông tin: Vấn đề "chết ReLU" trong các mạng thần kinh là gì?
Đó là một sự khác biệt nhỏ về ngữ nghĩa. Rất nhiều hàm (tanh và logistic / sigmoid) có đạo hàm rất gần với 0 khi bạn ở ngoài phạm vi hoạt động tiêu chuẩn. Đây là vấn đề 'biến mất độ dốc'. Càng tệ, bạn càng khó trở lại vùng tốt. ReLU không trở nên tồi tệ hơn khi bạn đi theo hướng tích cực, do đó không có vấn đề về độ dốc biến mất (ở phía đó). Sự bất đối xứng này có thể đủ để biện minh cho việc gọi nó là một cái gì đó khác biệt, nhưng các ý tưởng khá giống nhau.
Vanishing có nghĩa là nó tiến về 0 nhưng sẽ không bao giờ thực sự là 0. Có độ dốc bằng 0 giúp cho việc tính toán rất dễ dàng, có độ dốc gần bằng 0 có nghĩa là có những thay đổi, chỉ là những điều rất nhỏ có nghĩa là học chậm và các vấn đề về số. 1 và 0 là hai trong số các số dễ nhất để tính toán trong các loại vấn đề tối ưu hóa này.