hiểu bình thường hóa hàng loạt

Trong bài viết Chuẩn hóa hàng loạt: Tăng tốc đào tạo mạng sâu b y Giảm sự thay đổi đồng biến nội bộ ( ở đây ) Trước khi giải thích quá trình chuẩn hóa hàng loạt, bài viết cố gắng giải thích các vấn đề liên quan (Tôi không hiểu vấn đề chính xác được giải quyết ở đây là gì) .

đoạn trích từ phần 2, đoạn 2:

Chúng tôi có thể xem xét kích hoạt làm trắng ở mỗi bước đào tạo hoặc tại một số khoảng thời gian, bằng cách sửa đổi trực tiếp mạng hoặc bằng cách thay đổi các tham số của thuật toán tối ưu hóa phụ thuộc vào các giá trị kích hoạt mạng (Wiesler et al., 2014; Raiko et al., 2012 ; Povey và cộng sự, 2014; Desjardins & Kavukcuoglu). Tuy nhiên, nếu các sửa đổi này được xen kẽ với các bước tối ưu hóa, thì bước giảm độ dốc có thể cố gắng cập nhật các tham số theo cách yêu cầu chuẩn hóa phải được cập nhật, làm giảm hiệu ứng của bước gradient. Ví dụ: xem xét một lớp có u đầu vào có thêm độ lệch đã học và bình thường hóa kết quả bằng cách trừ đi giá trị trung bình của kích hoạt được tính trên dữ liệu huấn luyện: $b$ $\hat x= x − E[x]$ trong đó là tập hợp các giá trị của trên tập huấn luyện và . $x = u + b, X = {x_{1...N}}$ $x$ $E[x] = \frac 1 N(\sum_{i=1}^nx_i)$

Nếu một bước giảm độ dốc bỏ qua sự phụ thuộc của E [x] vào b, thì nó sẽ cập nhật $b ← b + ∆b$ , trong đó $∆b ∝ −\partial l/\partial\hat x$ . Khi đó
$\begin{matrix} (1) & u + (b + ∆ b) - E [u + (b + ∆ b)] = u + b - E [u + b] \end{matrix}$ $u + (b + ∆b) − E[u + (b + ∆b)] = u + b − E[u + b] \tag 1$ .
Do đó, sự kết hợp của việc cập nhật lên b và thay đổi chuẩn hóa tiếp theo dẫn đến không có sự thay đổi nào trong đầu ra của lớp và do đó, mất mát. Khi đào tạo tiếp tục, b sẽ tăng trưởng vô thời hạn trong khi tổn thất vẫn cố định. Vấn đề này có thể trở nên tồi tệ hơn nếu việc chuẩn hóa không chỉ các trung tâm mà còn mở rộng quy mô kích hoạt.

đây là sự hiểu biết của tôi về văn học:

Chúng tôi có một lô cỡ N (Một đợt đào tạo)
Để có hai lớp ẩn tùy ý được kết nối với nhau (L1 và L2) được kết nối bởi các tham số và $W$ $b$
đầu ra của L1 là x1
$u = x1W$ (đây là lúc tài liệu ở trên bắt đầu. thứ nguyên của u là MxN) (M là số đơn vị trong L2)
$x = u+b$ (thứ nguyên b = thứ x = thứ nguyên u = MxN)
Bây giờ trước khi cho x vào L2, chúng ta căn giữa nó bằng cách trừ giá trị trung bình của từ mỗi mục trong ( ) $x$ $x$ $\hat x= x − E[x]$
Chúng tôi tính toán tổn thất và sao lưu lại độ dốc và chỉ cập nhật lớp để cung cấp cho nó một bài kiểm tra độ tỉnh táo. Mới = $b$ $b$ $b + \Delta b$
Chúng tôi chạy lại trên cùng một đợt với cập nhật $b$
lặp lại 3 và 4
$x_{new} = u+b + \Delta b$ (kích thước b, = kích thước x = kích thước u = MxN) $\Delta b$
Bây giờ trước khi cho x vào L2, chúng ta căn giữa nó bằng cách trừ giá trị trung bình của từ mỗi mục trong ( ). giống như những gì đã được tính toán trước khi cập nhật b và do đó cập nhật b phải có hiệu lực trong việc đào tạo $x$ $x$ $\hat x = x + \Delta b − E[x + \Delta b] = x - E[x]$

Câu hỏi của tôi là với phần này của đoạn trích:

"Nếu bước giảm độ dốc bỏ qua sự phụ thuộc của E [x] vào b, thì nó sẽ cập nhật , trong đó . Sau đó " $b ← b + ∆b$ $∆b ∝ −\partial l/\partial\hat x$

\begin{matrix} (1) & u + (b + ∆ b) - E [u + (b + ∆ b)] = u + b - E [u + b] \end{matrix}

$u + (b + ∆b) − E[u + (b + ∆b)] = u + b − E[u + b] \tag 1$

Tại sao lại là

" " phụ thuộc vào những gì đến trước nó? Thậm chí điểm của bit đó là gì? Cũng xin lưu ý cách sử dụng từ "Then" (được in đậm) ngụ ý tuyên bố nhất thiết phải rút ra quan hệ nhân quả từ những gì đến trước

\begin{matrix} (1) & u + (b + ∆ b) - E [u + (b + ∆ b)] = u + b - E [u + b] \end{matrix}

$u + (b + ∆b) − E[u + (b + ∆b)] = u + b − E[u + b] \tag 1$

neural-network deep-learning batch-normalization

— MiloMinderbinder
nguồn

Giả sử rằng bạn đang cố gắng giảm thiểu tổn thất sau cho một tác vụ nhất định, trong đólà khoảng cách Eucledian và đầu ra dự đoán là để đơn giản. Độ dốc sau đó có thể được tính như sau:

ℓ (y, \hat{y}) = \frac{1}{2} ‖ y - \hat{y} ‖^{2},

$\ell(y, \hat{y}) = \frac{1}{2}\| y - \hat{y}\|^2,$

‖ \cdot ‖

$\| \cdot\|$

\hat{y} = \hat{x}

$\hat{y} =\hat{x}$

Δ b = - \frac{\partial ℓ}{\partial \hat{x}} \cdot \frac{\partial \hat{x}}{\partial b}, Δ ω = - \frac{\partial ℓ}{\partial \hat{x}} \cdot \frac{\partial \hat{x}}{\partial ω}

$\Delta b = - \frac{\partial\ell}{\partial\hat{x}} \cdot \frac{\partial\hat{x}}{\partial b}, \hspace{20pt} \Delta \omega = - \frac{\partial\ell}{\partial\hat{x}} \cdot \frac{\partial\hat{x}}{\partial \omega}$

Bây giờ, độ dốc của đối với độ lệch là $\hat{x}$ $b$

\frac{\partial \hat{x}}{\partial b} = \frac{\partial}{\partial b} (x - E [x]) = \frac{\partial}{\partial b} ((u + b) - E [(u + b)]) = 1 - \frac{\partial}{\partial b} E [(u + b)]

$\frac{\partial\hat{x}}{\partial b} = \frac{\partial}{\partial b}(x-E[x]) = \frac{\partial}{\partial b}\left((u+b)-E[(u+b)]\right) = 1 - \frac{\partial}{\partial b}E[(u+b)]$

Bỏ qua thực tế phụ thuộc vào làm cho độ dốc trên bằng 1 và do đó tiếp tục cập nhật độ lệch như sau: $E(x)$ $b$

\frac{\partial \hat{x}}{\partial b} = 1 - \frac{\partial}{\partial b} E [x] = 1 - 0 = 1

$\frac{\partial\hat{x}}{\partial b} = 1 - \frac{\partial}{\partial b}E[x] = 1 -0 = 1$ và sau đó

Δ b = - \frac{\partial ℓ}{\partial \hat{x}} \cdot (1), b \leftarrow b + Δ b

$\Delta b = - \frac{\partial\ell}{\partial\hat{x}} \cdot (1), \hspace{20pt} b \leftarrow b + \Delta b$

Mặt khác, nếu bạn muốn xem xét sự phụ thuộc này, độ dốc trở thành 0 và do đó không có cập nhật nào như sau:

\frac{\partial \hat{x}}{\partial b} = 1 - \frac{\partial}{\partial b} E [u + b] = 1 - (\frac{\partial}{\partial b} E [u] + \frac{\partial}{\partial b} E [b]) = 1 - (0 + 1) = 0

$\frac{\partial\hat{x}}{\partial b} = 1 - \frac{\partial}{\partial b}E[u+b] = 1 - \left(\frac{\partial}{\partial b}E[u]+\frac{\partial}{\partial b}E[b]\right) = 1 - (0+1) = 0$ và sau đó

Δ b = - \frac{\partial ℓ}{\partial \hat{x}} \cdot (0), b \leftarrow b + 0

$\Delta b = - \frac{\partial\ell}{\partial\hat{x}} \cdot (0), \hspace{20pt} b \leftarrow b + 0$

Trong cả hai trường hợp, bất kể cập nhật sai lệch, chức năng mất sẽ vẫn cố định,

u + (b + Δ b) - E [u + (b + ∆ b)] = u + b - E [u + b],

$u+(b+\Delta b)−E[u+(b+∆b)]=u+b−E[u+b],$

tuy nhiên, trong trường hợp đầu tiên, sự thiên vị sẽ tăng lên vô tận.

— Shadi
nguồn