Đây là lý do tại sao có thể nên sử dụng PReLU, ELU hoặc các kích hoạt giống như ReLU bị rò rỉ khác mà không chết xuống 0, nhưng rơi vào mức 0,1 * x khi x bị âm để tiếp tục học. Dường như đối với tôi trong một thời gian dài, ReLUs là lịch sử như sigmoid, mặc dù vì một số lý do, mọi người vẫn xuất bản các bài báo với những điều này. Tại sao? Tôi không biết.
Dmytro Mishkin và những người khác thực sự đã thử nghiệm một mạng với nhiều loại kích hoạt khác nhau, bạn nên xem những phát hiện của họ về hiệu suất của các chức năng kích hoạt khác nhau và các công cụ khác. Tuy nhiên, một số chức năng, như XOR, được học tốt hơn với ReLU đơn giản. Đừng nghĩ về bất kỳ thứ thần kinh nào theo thuật ngữ giáo điều, bởi vì mạng lưới thần kinh đang tiến hành rất nhiều. Không ai trên thế giới thực sự biết và hiểu họ đủ rõ để nói lên sự thật thiêng liêng. Không ai. Hãy thử mọi thứ, thực hiện những khám phá của riêng bạn. Lưu ý rằng việc sử dụng ReLU là một sự phát triển gần đây và trong nhiều thập kỷ, tất cả những người tiến sĩ khác nhau trong lĩnh vực này đã sử dụng các chức năng kích hoạt quá phức tạp mà bây giờ chúng ta chỉ có thể cười. Quá thường xuyên "biết" quá nhiều có thể khiến bạn có kết quả xấu. Điều quan trọng là phải hiểu rằng mạng lưới thần kinh không phải là một khoa học chính xác. Không có gì trong toán học nói rằng mạng lưới thần kinh sẽ thực sự hoạt động tốt như họ làm. Đó là heuristic. Và nó rất dễ uốn.
FYI thậm chí kích hoạt giá trị tuyệt đối đạt kết quả tốt đối với một số vấn đề, ví dụ như các vấn đề giống như XOR. Các chức năng kích hoạt khác nhau phù hợp hơn với các mục đích khác nhau. Tôi đã thử Cifar-10 với abs () và nó dường như hoạt động kém hơn. Mặc dù vậy, tôi không thể nói rằng "đó là một chức năng kích hoạt kém hơn để nhận dạng hình ảnh", vì tôi không chắc chắn, ví dụ, nếu việc khởi tạo trước của tôi là tối ưu cho nó, v.v ... Thực tế là nó đã học tương đối cũng làm tôi ngạc nhiên
Ngoài ra, trong cuộc sống thực, "các đạo hàm" mà bạn truyền cho backprop không nhất thiết phải khớp với các đạo hàm toán học thực tế.
Tôi thậm chí còn đi xa hơn để nói rằng chúng ta nên cấm gọi chúng là "phái sinh" và bắt đầu gọi chúng là một cái gì đó khác, ví dụ, error activation functions
để không đóng tâm trí của chúng ta với khả năng mày mò với chúng. Ví dụ, bạn thực sự có thể sử dụng kích hoạt ReLU, nhưng cung cấp 0,1 hoặc một cái gì đó tương tự thay vì 0 làm đạo hàm cho x <0. Theo một cách nào đó, sau đó bạn có một ReLU đơn giản, nhưng với các tế bào thần kinh không thể "chết vì khả năng thích ứng". Tôi gọi nó là NecroRelu, vì đó là ReLU không thể chết. Và trong một số trường hợp (chắc chắn không phải trong hầu hết), hoạt động tốt hơn LeakyReLU đơn giản, thực sự có đạo hàm 0,1 tại x <0 và tốt hơn ReLU thông thường. Tôi không nghĩ rằng có quá nhiều người khác đã điều tra một chức năng như vậy, tuy nhiên, điều này hoặc một cái gì đó tương tự thực sự có thể là một chức năng kích hoạt tuyệt vời mà không ai coi là chỉ vì họ quá tập trung vào toán học.
Đối với những gì thường được sử dụng, đối với chức năng kích hoạt tanH (x), việc truyền 1 - x² thay vì 1 - tanH (x) ² là một đạo hàm để tính toán mọi thứ nhanh hơn.
Ngoài ra, hãy nhớ rằng ReLU không phải là tất cả "rõ ràng tốt hơn", ví dụ, TanH. TanH có lẽ có thể tốt hơn trong một số trường hợp. Chỉ là, có vẻ như, không phải trong nhận dạng trực quan. Mặc dù vậy, ELU, chẳng hạn, có một chút mềm mại sigmoid và nó là một trong những chức năng kích hoạt được biết đến nhiều nhất để nhận dạng hình ảnh tại thời điểm này. Tôi chưa thực sự cố gắng, nhưng tôi cá là người ta có thể đặt một số nhóm với các chức năng kích hoạt khác nhau trên cùng một cấp lớp thành một lợi thế. Bởi vì, logic khác nhau được mô tả tốt hơn với các chức năng kích hoạt khác nhau. Và đôi khi bạn có thể cần một số loại đánh giá.
Lưu ý rằng điều quan trọng là phải có một intialization tương ứng với loại chức năng kích hoạt của bạn. ReLUs bị rò rỉ cần các init khác mà ReLUs đơn giản, chẳng hạn.
EDIT: Trên thực tế, ReLU tiêu chuẩn dường như ít bị quá tải so với những thứ bị rò rỉ với kiến trúc hiện đại. Ít nhất là trong nhận dạng hình ảnh. Có vẻ như nếu bạn đang sử dụng mạng có độ chính xác rất cao với tải thông số khổng lồ, có thể tốt hơn khi gắn bó với các tùy chọn ReLU đơn giản so với các tùy chọn rò rỉ. Nhưng, tất nhiên, tự mình kiểm tra tất cả những điều này. Có thể, một số thứ bị rò rỉ sẽ hoạt động tốt hơn nếu được cung cấp thường xuyên hơn.