Relu không có độ dốc 0 theo định nghĩa, vậy tại sao độ dốc biến mất không phải là vấn đề đối với x <0?

10

Theo định nghĩa, Relu là max(0,f(x)). Sau đó, độ dốc của nó được định nghĩa là : 1 if x > 0 and 0 if x < 0.

Điều này có nghĩa là độ dốc luôn là 0 (biến mất) khi x <0? Vậy thì tại sao chúng ta lại nói Relu không gặp phải vấn đề biến mất?

deep-learning

— Edamame
nguồn

5

Bạn gần như đúng! ReLU có một vấn đề với sự biến mất độ dốc, nhưng chỉ ở một phía, vì vậy chúng tôi gọi nó là một vấn đề khác: 'vấn đề ReLU sắp chết'. Xem phản hồi tràn ngăn xếp này để biết thêm thông tin: Vấn đề "chết ReLU" trong các mạng thần kinh là gì?

Đó là một sự khác biệt nhỏ về ngữ nghĩa. Rất nhiều hàm (tanh và logistic / sigmoid) có đạo hàm rất gần với 0 khi bạn ở ngoài phạm vi hoạt động tiêu chuẩn. Đây là vấn đề 'biến mất độ dốc'. Càng tệ, bạn càng khó trở lại vùng tốt. ReLU không trở nên tồi tệ hơn khi bạn đi theo hướng tích cực, do đó không có vấn đề về độ dốc biến mất (ở phía đó). Sự bất đối xứng này có thể đủ để biện minh cho việc gọi nó là một cái gì đó khác biệt, nhưng các ý tưởng khá giống nhau.

— Joseph Catrambone
nguồn

2

Thêm giá trị: Vấn đề độ dốc biến mất có xu hướng là về những thay đổi tiến bộ theo độ sâu của mạng và không trực tiếp về các thuộc tính của các chức năng chuyển nơ ron.

— Neil Slater

1

Vanishing có nghĩa là nó tiến về 0 nhưng sẽ không bao giờ thực sự là 0. Có độ dốc bằng 0 giúp cho việc tính toán rất dễ dàng, có độ dốc gần bằng 0 có nghĩa là có những thay đổi, chỉ là những điều rất nhỏ có nghĩa là học chậm và các vấn đề về số. 1 và 0 là hai trong số các số dễ nhất để tính toán trong các loại vấn đề tối ưu hóa này.

— Jan van der Vegt
nguồn