Liệu Batch Normalization có ý nghĩa đối với chức năng kích hoạt ReLU không?


10

Batch Normalization được mô tả trong này giấy như một bình thường hóa các đầu vào cho một chức năng kích hoạt với các biến quy mô và thay đổi β . Bài viết này chủ yếu mô tả bằng cách sử dụng chức năng kích hoạt sigmoid, có ý nghĩa. Tuy nhiên, có vẻ như với tôi rằng ăn một đầu vào từ sự phân bố bình thường hóa được sản xuất bởi sự chuẩn hóa hàng loạt vào một chức năng kích hoạt ReLU của m một x ( 0 , x ) là nguy hiểm nếu βγβmmộtx(0,x)βkhông học cách dịch chuyển hầu hết các đầu vào qua 0 sao cho ReLU không bị mất thông tin đầu vào. Tức là nếu đầu vào cho ReLU chỉ là tiêu chuẩn bình thường, chúng ta sẽ mất rất nhiều thông tin của chúng tôi dưới đây 0. Có bất kỳ sự bảo đảm hoặc khởi tạo của đó sẽ đảm bảo rằng chúng không bị mất thông tin này? Tôi có thiếu điều gì với cách hoạt động của BN và ReLU không?β

Câu trả lời:


3

Đó là một vấn đề với các chức năng kích hoạt ReLU. Nó thường được gọi là "ReLU sắp chết". Đưa ra một đầu vào trên ranh giới 0, đơn vị gần như luôn luôn đóng. Một ReLU đã đóng không thể cập nhật các tham số đầu vào của nó, ReLU đã chết vẫn còn.

Giải pháp là sử dụng các biến thể của ReLU cho chức năng kích hoạt như Leaky ReLU, ReLU ồn ào hoặc ELU .


1

Tôi muốn nói BN đi sau ReLU chứ không phải trước đó, nói chung nên đặt giữa 2 lớp để chuẩn hóa PDF đầu ra của lớp trước khi trở thành đầu vào lớp khác

Quá trình xử lý lớp phức tạp bao gồm xử lý Lin (Toán tử chuyển đổi) + NonLin (ví dụ ReLU) (như Xử lý nơ-ron nhân tạo) và một phi tuyến được phát hiện như ReLU tạo ra một tệp PDF đầu ra không âm do kết quả của quá trình lọc, do đó trước đó vượt qua nó như là lớp tiếp theo, BN có thể giúp tái chuẩn hóa nó

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.