Trong toán học, một hàm được coi là tuyến tính bất cứ khi nào một fucntion nếu với mọi và trong miền có thuộc tính sau: . Theo định nghĩa, ReLU là . Do đó, nếu chúng ta tách miền từ hoặc thì hàm là tuyến tính. Tuy nhiên, thật dễ dàng để thấy rằng . Do đó theo định nghĩa ReLU không tuyến tính. x y A f ( x ) + f ( y ) = f ( x + y ) m a x ( 0 , x ) ( - ∞ , 0 ] [ 0 , ∞ ) f ( - 1 ) + f ( 1 ) ≠ f ( 0 )f: A → BxyMộtf( x ) + f( y) = f( x + y)m a x ( 0 , x )( - ∞ , 0 ][ 0 , ∞ )f(−1)+f(1)≠f(0)
Tuy nhiên, ReLU gần với tuyến tính đến mức điều này thường khiến mọi người nhầm lẫn và tự hỏi làm thế nào nó có thể được sử dụng như một xấp xỉ phổ quát. Theo kinh nghiệm của tôi, cách tốt nhất để nghĩ về họ giống như số tiền Riemann. Bạn có thể tính gần đúng mọi hàm liên tục với nhiều hình chữ nhật nhỏ. Kích hoạt ReLU có thể tạo ra rất nhiều hình chữ nhật nhỏ. Trên thực tế, trong thực tế, ReLU có thể tạo ra các hình dạng khá phức tạp và xấp xỉ nhiều miền phức tạp.
Tôi cũng cảm thấy muốn làm rõ một điểm khác. Như được chỉ ra bởi một câu trả lời trước đó, tế bào thần kinh không chết trong Sigmoid, mà biến mất. Lý do cho điều này là bởi vì tối đa đạo hàm của hàm sigmoid là 0,25. Do đó, sau rất nhiều lớp, bạn sẽ nhân các gradient này và sản phẩm có số lượng rất nhỏ dưới 1 có xu hướng giảm về 0 rất nhanh.
Do đó, nếu bạn đang xây dựng một mạng lưới học tập sâu với nhiều lớp, các chức năng sigmoid của bạn về cơ bản sẽ bị đình trệ khá nhanh và trở nên vô dụng.
Điểm mấu chốt là sự biến mất đến từ việc nhân các gradient chứ không phải chính các gradient.