Tại sao định mức lô có quy mô có thể học và thay đổi?


11

Theo như tôi hiểu nó, định mức hàng loạt normalises tất cả các tính năng đầu vào cho một lớp với phân phối chuẩn đơn vị, . Giá trị trung bình và phương sai μ , σ 2 được ước tính bằng cách đo giá trị của họ cho dòng mini-lô.N(μ= =0,σ= =1)μ,σ2

Sau khi chuẩn hóa, các đầu vào được chia tỷ lệ và thay đổi bởi các giá trị vô hướng:

x^Tôi'= =γx^Tôi+β

(Sửa lỗi cho tôi nếu tôi sai ở đây - đây là lúc tôi bắt đầu có chút không chắc chắn.)

β là những giá trị vô hướng và có một cặp mỗi cho mỗi lớp batch-định chuẩn. Chúng được học cùng với các trọng số sử dụng backprop và SGD.γβ

Câu hỏi của tôi là, không phải các tham số này là dư thừa bởi vì các đầu vào có thể được thu nhỏ và thay đổi theo bất kỳ cách nào bởi các trọng số trong chính lớp đó. Nói cách khác, nếu

y= =Wx^'+b

x^'= =γx^+β

sau đó

y= =W'x^+b'

nơi b ' = W β + bW'= =Wγb'= =Wβ+b .

Vì vậy, điểm bổ sung chúng của mạng đã có khả năng học quy mô và thay đổi là gì? Hay tôi hoàn toàn hiểu lầm mọi thứ?

Câu trả lời:


12

Có một câu trả lời hoàn hảo trong Sách học tập sâu, Phần 8.7.1 :

Bình thường hóa độ lệch trung bình và độ lệch chuẩn của một đơn vị có thể làm giảm sức mạnh biểu cảm của mạng lưới thần kinh có chứa đơn vị đó. Để duy trì sức mạnh biểu cảm của mạng, người ta thường thay thế lô kích hoạt đơn vị ẩn H bằng γH + thay vì chỉ đơn giản là H. Các biến và là các tham số đã học cho phép biến mới có bất kỳ giá trị trung bình nào và độ lệch chuẩn. Thoạt nhìn, điều này có vẻ vô dụng - tại sao chúng ta lại đặt giá trị trung bình thành 0, và sau đó giới thiệu một tham số cho phép đặt lại thành bất kỳ giá trị tùy ý nào?

Câu trả lời là tham số hóa mới có thể đại diện cho cùng một nhóm chức năng của đầu vào là tham số cũ, nhưng tham số mới có động lực học tập khác nhau. Trong tham số cũ, giá trị trung bình của H được xác định bởi sự tương tác phức tạp giữa các tham số trong các lớp bên dưới H. Trong tham số mới, giá trị trung bình của γH + chỉ được xác định bởi. Các tham số mới dễ học hơn nhiều với độ dốc gốc.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.