Nhanh hơn hoặc thấp hơn là một thuật ngữ tương đối và phải được hiểu trong bối cảnh của những gì nó được so sánh với. Vì vậy, để hiểu điều này, trước tiên chúng ta phải xem xét cách thức giảm độ dốc hoạt động với các loại chức năng kích hoạt khác.
Thiết lập ví dụ
n
z1= W1x + b1
một1= =f( z1)
...
zn= Wnmộtn - 1+ bn
y= =f( zn)
f
Tanh và Sigmoid - Gradient biến mất
ff'( X ) ∈ ( - 1 , 1 )x
yW1
dfdW1= = dfdWndWndWn - 1. . . dW2dW1
0 < i < n
dXTôidXtôi - 1= f'( Wtôi - 1mộttôi - 2+ btôi - 1) × atôi - 2∈ ( - 1 , 1 )
( - 1 , 1 )f'mộttôi - 2( - 1 , 1 )
dfdW1ndfdW1
RELU và Thần kinh chết
mộtTôi> 0f
dXTôidXtôi - 1= atôi - 2
dfdW1= a1một2một3. . . mộtn - 1
x > 0x < 0
Rò rỉ RELU và ELU
x > 0x < 1
Tôi trích dẫn giấy gốc cho sự khác biệt giữa hai.
Mặc dù LReLU và PReLU cũng có các giá trị âm, nhưng chúng không đảm bảo trạng thái khử kích hoạt mạnh. ELU bão hòa đến một giá trị âm với các đầu vào nhỏ hơn và do đó làm giảm thông tin và biến thể lan truyền về phía trước.
Các giải thích trực quan đi như sau. Trong ELU, bất cứ khi nào x trở nên đủ nhỏ, độ dốc trở nên thực sự nhỏ và bão hòa (giống như cách nó xảy ra với Tanh và Sigmoid). Độ dốc nhỏ có nghĩa là thuật toán học tập có thể tập trung vào việc điều chỉnh các trọng số khác mà không phải lo lắng về sự tương tác với các tế bào thần kinh bão hòa.
Hãy xem xét một đa thức bậc 2 có thể được biểu diễn dưới dạng một bề mặt nhẵn trong không gian 3 chiều. Để tìm mức tối thiểu cục bộ, thuật toán giảm độ dốc sẽ cần xem xét độ dốc theo cả hai hướng x và y. Nếu độ dốc cả âm theo hướng x và hướng y, thì không rõ cách nào tốt hơn. Vì vậy, thật hợp lý khi chọn một con đường ở đâu đó ở giữa. Nhưng điều gì sẽ xảy ra nếu chúng ta đã biết mọi thứ đều bằng phẳng (độ dốc bằng không) theo hướng x, thì nó sẽ trở thành không có trí tuệ để đi theo hướng y. Hay nói cách khác, bạn tìm kiếm không gian trở nên nhỏ hơn nhiều.
đặc biệt lưu ý
Trong học tập sâu, có rất nhiều tuyên bố mà không có đủ bằng chứng thực nghiệm hoặc hiểu biết sâu sắc để hỗ trợ nó. Trong trường hợp của ELU, mặc dù có thể đúng là nó dẫn đến sự hội tụ nhanh hơn cho một số bộ dữ liệu, nhưng cũng có thể đúng là nó làm cho thuật toán học bị kẹt ở mức tối đa cục bộ cho một tập dữ liệu khác. Chúng tôi chỉ chưa biết đủ.