Batch Normalization được mô tả trong này giấy như một bình thường hóa các đầu vào cho một chức năng kích hoạt với các biến quy mô và thay đổi và β . Bài viết này chủ yếu mô tả bằng cách sử dụng chức năng kích hoạt sigmoid, có ý nghĩa. Tuy nhiên, có vẻ như với tôi rằng ăn một đầu vào từ sự phân bố bình thường hóa được sản xuất bởi sự chuẩn hóa hàng loạt vào một chức năng kích hoạt ReLU của m một x ( 0 , x ) là nguy hiểm nếu βkhông học cách dịch chuyển hầu hết các đầu vào qua 0 sao cho ReLU không bị mất thông tin đầu vào. Tức là nếu đầu vào cho ReLU chỉ là tiêu chuẩn bình thường, chúng ta sẽ mất rất nhiều thông tin của chúng tôi dưới đây 0. Có bất kỳ sự bảo đảm hoặc khởi tạo của đó sẽ đảm bảo rằng chúng không bị mất thông tin này? Tôi có thiếu điều gì với cách hoạt động của BN và ReLU không?