Lợi ích của việc sử dụng ReLU so với softplus là chức năng kích hoạt là gì?

21

Người ta thường đề cập rằng các đơn vị tuyến tính chỉnh lưu (ReLU) có các đơn vị phần mềm thay thế bởi vì chúng là tuyến tính và nhanh hơn để tính toán.

Liệu softplus nó vẫn có lợi thế gây ra sự thưa thớt hay bị hạn chế trong ReLU?

Lý do tôi hỏi là tôi tự hỏi về hậu quả tiêu cực của độ dốc bằng không của ReLU. Không phải tài sản này "bẫy" các đơn vị ở mức 0, nơi nó có thể mang lại lợi ích cho chúng khả năng kích hoạt lại?

machine-learning neural-networks

— brockl33
nguồn

Bạn đã bao giờ tìm ra câu trả lời cho điều này?

— Charlie Parker

4

Tôi đã tìm thấy câu trả lời cho câu hỏi của bạn trong Phần 6.3.3 của cuốn sách Deep Learning . (Goodfellow và cộng sự, 2016):

Việc sử dụng softplus thường không được khuyến khích. ... người ta có thể mong đợi nó có lợi thế hơn bộ chỉnh lưu do sự khác biệt ở mọi nơi hoặc do bão hòa ít hoàn toàn, nhưng theo kinh nghiệm thì không.

Để tham khảo để hỗ trợ cho tuyên bố này, họ đã trích dẫn bài báo Mạng lưới thần kinh chỉnh lưu sâu thưa thớt (Glorot et. Al, 2011).

— Alexander Shchur
nguồn

1

Tôi nghĩ rằng chúng ta cần làm rõ hơn về "nhưng thực tế thì không."

— nbro

2

ReLUs thực sự có thể được tắt vĩnh viễn, đặc biệt là với tỷ lệ học tập cao. Đây là một động lực đằng sau các kích hoạt ReLU và ELU bị rò rỉ, cả hai đều có độ dốc khác không ở hầu hết mọi nơi.

Leaky ReLU là một hàm tuyến tính từng phần, giống như đối với ReLU, vì vậy nhanh chóng tính toán. ELU có lợi thế hơn softmax và ReLU rằng điều đó có nghĩa là đầu ra gần bằng 0, giúp cải thiện việc học.

— Hugh Perkins
nguồn

"Hầu hết mọi nơi" nghĩa là gì?

— nbro

1

"Hầu hết mọi nơi" là một thuật ngữ kỹ thuật có nghĩa là "ngoại trừ tại một vài điểm cực kỳ nhỏ". Ví dụ, ReLU bị rò rỉ không có độ dốc được xác định tại x = 0.

— Hugh Perkins