Theo như tôi hiểu nó, định mức hàng loạt normalises tất cả các tính năng đầu vào cho một lớp với phân phối chuẩn đơn vị, . Giá trị trung bình và phương sai μ , σ 2 được ước tính bằng cách đo giá trị của họ cho dòng mini-lô.
Sau khi chuẩn hóa, các đầu vào được chia tỷ lệ và thay đổi bởi các giá trị vô hướng:
(Sửa lỗi cho tôi nếu tôi sai ở đây - đây là lúc tôi bắt đầu có chút không chắc chắn.)
và β là những giá trị vô hướng và có một cặp mỗi cho mỗi lớp batch-định chuẩn. Chúng được học cùng với các trọng số sử dụng backprop và SGD.
Câu hỏi của tôi là, không phải các tham số này là dư thừa bởi vì các đầu vào có thể được thu nhỏ và thay đổi theo bất kỳ cách nào bởi các trọng số trong chính lớp đó. Nói cách khác, nếu
và
sau đó
nơi và b ' = W β + b .
Vì vậy, điểm bổ sung chúng của mạng đã có khả năng học quy mô và thay đổi là gì? Hay tôi hoàn toàn hiểu lầm mọi thứ?