Tại sao ReLU tốt hơn các chức năng kích hoạt khác

Ở đây , câu trả lời đề cập đến việc biến mất và làm nổ các gradient có sigmoidchức năng kích hoạt giống như nhưng tôi đoán, Relucó một nhược điểm và đó là giá trị mong đợi của nó. không có giới hạn cho đầu ra của Reluvà vì vậy giá trị mong đợi của nó không bằng không. Tôi nhớ thời trước khi phổ biến Relunó tanhlà phổ biến nhất trong số các chuyên gia máy học hơn là sigmoid. Lý do là giá trị kỳ vọng của giá trị tanhbằng 0 và nó giúp việc học ở các lớp sâu hơn nhanh hơn trong mạng lưới thần kinh. Relukhông có đặc điểm này, nhưng tại sao nó hoạt động tốt như vậy nếu chúng ta đặt lợi thế phái sinh của nó sang một bên. Hơn nữa, tôi đoán đạo hàm cũng có thể bị ảnh hưởng. Bởi vì các kích hoạt (đầu ra củaRelu) có liên quan để tính toán các quy tắc cập nhật.

— Phương tiện truyền thông
nguồn

Thông thường có một số loại chuẩn hóa (ví dụ: chuẩn hóa hàng loạt, chuẩn hóa lớp) cùng với ReLU. Điều này điều chỉnh phạm vi đầu ra.

— ncasas

@ncasas Nhưng trong CNNbình thường hóa đầu ra của relukhông phổ biến? Ít nhất tôi chưa bao giờ thấy điều đó.

— Truyền thông

Bạn nói đúng, trong các CNN không sâu lắm thì bình thường không có chuẩn hóa hàng loạt. Bạn đã xem xét vai trò của giá trị ban đầu trọng lượng? (ví dụ: Anh ấy khởi tạo)

— ncasas

vâng, thực ra chúng là để ngăn chặn sự biến mất / nổ độ dốc, sau một số lần lặp, kết quả đầu ra trở nên lớn hơn tôi đoán.

— Truyền thông

Ưu điểm lớn nhất của ReLu thực sự là không bão hòa độ dốc của nó, giúp tăng tốc đáng kể sự hội tụ của độ dốc dốc ngẫu nhiên so với các hàm sigmoid / tanh ( bài báo của Krizhevsky et al).

Nhưng đó không phải là lợi thế duy nhất. Dưới đây là một cuộc thảo luận về hiệu ứng thưa thớt của kích hoạt ReLu và chính quy hóa gây ra. Một đặc tính tốt khác là so với các tế bào thần kinh tanh / sigmoid liên quan đến các hoạt động đắt tiền (hàm mũ, v.v.), ReLU có thể được thực hiện bằng cách đơn giản là đập một ma trận kích hoạt ở mức 0.

Nhưng tôi không tin rằng thành công lớn của mạng lưới thần kinh hiện đại là do một mình ReLu . Các kỹ thuật khởi tạo mới, chẳng hạn như khởi tạo Xavier, bỏ học và (sau này) đợt đóng góp cũng đóng vai trò rất quan trọng. Ví dụ, AlexNet nổi tiếng đã sử dụng ReLu và bỏ học.

Vì vậy, để trả lời câu hỏi của bạn: ReLu có các thuộc tính rất đẹp, mặc dù không lý tưởng . Nhưng nó thực sự chứng tỏ bản thân khi kết hợp với các kỹ thuật tuyệt vời khác, bằng cách giải quyết vấn đề khác không trung tâm mà bạn đã đề cập.

CẬP NHẬT: Đầu ra ReLu không phải là trung tâm bằng không và nó làm tổn hại đến hiệu suất NN. Nhưng vấn đề cụ thể này có thể được giải quyết bằng các kỹ thuật chính quy hóa khác, ví dụ như batchnorm, giúp chuẩn hóa tín hiệu trước khi kích hoạt :

Chúng tôi thêm biến đổi BN ngay trước phi tuyến, bằng cách chuẩn hóa . ... bình thường hóa nó có khả năng tạo ra kích hoạt với phân phối ổn định. $x = Wu+ b$

— Châm ngôn
nguồn

Tôi nên nhấn mạnh phần này: Tôi đã cố gắng nói rằng một mình ReLu không giải quyết được vấn đề này. Bạn đúng rằng đầu ra ReLu không phải là trung tâm và nó làm ảnh hưởng đến hiệu suất NN, trừ khi các trọng số được chuẩn hóa. Nhưng độ dốc bão hòa làm tổn thương NN nhiều hơn, do đó, việc áp dụng ReLu hàng loạt là một bước tiến bất chấp những bất lợi của nó.

— Maxim

bạn có thể nói những gì bạn có nghĩa là trọng lượng được thường xuyên? trong câu trả lời và cũng là điều mà bạn đã nhấn mạnh.

— Truyền thông

Đã cập nhật câu trả lời của tôi với một số chi tiết về vấn đề cụ thể này

— Maxim

Điều tôi thấy hơi khó hiểu, tại sao không sử dụng chức năng nhận dạng? Lợi thế của 0 cho các giá trị âm là gì?

— Alex

@Alex id không phải là phi tuyến tính. Nó tương đương với việc chỉ có các lớp tuyến tính trong NN. Xem câu hỏi này - stackoverflow.com/q/46659525/712995

— Maxim