Giải thích về ví dụ về lý do tại sao việc chuẩn hóa hàng loạt phải được thực hiện một cách cẩn thận?

Tôi đã đọc bài viết chuẩn hóa hàng loạt [1] và nó có một phần trong đó là một ví dụ, cố gắng chỉ ra tại sao việc chuẩn hóa phải được thực hiện cẩn thận. Thành thật mà nói, tôi không thể hiểu được ví dụ này hoạt động như thế nào và tôi thực sự rất tò mò muốn hiểu họ viết nhiều nhất có thể. Đầu tiên hãy để tôi trích dẫn nó ở đây:

Ví dụ, hãy xem xét một lớp có u đầu vào có thêm độ lệch b đã học và bình thường hóa kết quả bằng cách trừ đi giá trị trung bình của kích hoạt được tính trên dữ liệu huấn luyện: trong đó là tập hợp các giá trị của trên tập huấn luyện và . Nếu bước giảm độ dốc bỏ qua sự phụ thuộc của vào , thì nó sẽ cập nhật , trong đó . Khi đó . Do đó, sự kết hợp của bản cập nhật lên $\hat{x} = x − E[x]$ $x=u+b, X =\{x_1...N \}$ $x$ $E[x] = \sum^N_{i=1} x_i$ $E[x]$ $b$ $b ← b + \Delta > b$ $\Delta b \propto -\frac{\partial l}{\partial \hat{x}}$ $u+(b+\Delta b)−E[u+(b+\Delta b)] = u+b−E[u+b]$ $b$ và sự thay đổi tiếp theo trong quá trình chuẩn hóa dẫn đến không có sự thay đổi nào về đầu ra của lớp và do đó, mất đi.

Tôi nghĩ rằng tôi hiểu thông điệp, rằng nếu một người không làm bình thường hóa đúng cách, nó có thể là xấu. Tôi chỉ không biết làm thế nào mà ví dụ họ đang sử dụng miêu tả này.

Tôi biết rằng thật khó để giúp đỡ ai đó nếu họ không cụ thể hơn về những gì gây nhầm lẫn cho họ vì vậy tôi sẽ cung cấp phần tiếp theo, những điều khiến tôi bối rối về lời giải thích của họ.

Tôi nghĩ rằng hầu hết những nhầm lẫn của tôi có thể là công chứng, vì vậy tôi sẽ làm rõ.

Đầu tiên, tôi nghĩ một trong những điều khiến tôi bối rối là ý nghĩa của việc các tác giả có một đơn vị trong mạng và việc kích hoạt là gì. Thông thường, tôi nghĩ về một kích hoạt như:

x^{(l)} = a^{(l)} = θ (z^{(l)}) = θ (⟨ w^{(l)}, x^{(l - 1)} ⟩ + b^{(l)})

$x^{(l)} = a^{(l)} = \theta(z^{(l)}) = \theta( \langle w^{(l)}, x^{(l-1)} \rangle + b^{(l)})$

trong đó là các vectơ đặc trưng thô từ lớp đầu vào đầu tiên. $x^{(0)} = a^{(0)} = x$

Ngoài ra, tôi nghĩ một trong những điều đầu tiên làm tôi bối rối (vì lý do trước đó) là kịch bản họ đang cố gắng giải thích thực sự là gì. Nó nói rằng:

bình thường hóa kết quả bằng cách trừ đi giá trị trung bình của kích hoạt được tính trên dữ liệu huấn luyện: trong đó $\hat{x} = x − E[x]$ $x=u+b$

Tôi nghĩ điều họ đang cố gắng nói là thay vì sử dụng các kích hoạt như được tính bằng chuyển tiếp, người ta thực hiện một số loại "bình thường hóa" bằng cách trừ đi kích hoạt trung bình : $x^{(l)} = a^{(l)}$

{\bar{x}}^{l} = {\bar{a}}^{l} = \frac{1}{N} \sum_{i = 1}^{N} {\bar{a}}^{l} = \frac{1}{N} \sum_{i = 1}^{N} {\bar{x}}^{l}

$\bar{x}^{l} = \bar{a}^{l} = \frac{1}{N} \sum^{N}_{i=1} \bar{a}^{l} = \frac{1}{N} \sum^{N}_{i=1} \bar{x}^{l}$

và sau đó chuyển nó sang thuật toán lan truyền ngược. Hoặc ít nhất đó là những gì sẽ có ý nghĩa với tôi.

Liên quan đến điều này, tôi đoán những gì họ gọi có thể là ? Đó là những gì tôi đoán bởi vì họ gọi nó là "đầu vào" và có phương trình (Tôi đoán họ đang sử dụng đơn vị kích hoạt tuyến tính / nhận dạng cho mạng thần kinh của họ? Có thể). $u$ $x^{(l)}$ $x = u + b$

Để làm tôi bối rối hơn, họ định nghĩa là một cái gì đó tỷ lệ thuận với đạo hàm riêng, nhưng đạo hàm riêng được tính với , có vẻ rất kỳ quái đối với tôi. Thông thường, các dẫn xuất một phần khi sử dụng độ dốc gốc liên quan đến các tham số của mạng. Trong trường hợp bù, tôi sẽ nghĩ: $\Delta b$ $\hat{x}$

Δ b^{(l)} \propto - \frac{\partial l}{\partial b^{(l)}}

$\Delta b^{(l)} \propto -\frac{\partial l}{\partial b^{(l)} }$

có ý nghĩa hơn là lấy đạo hàm đối với các kích hoạt chuẩn hóa. Tôi đã cố gắng hiểu lý do tại sao họ lại lấy đạo hàm liên quan đến và tôi nghĩ có lẽ họ đang đề cập đến đồng bằng khi họ viết kể từ đó thông thường đó là phần duy nhất của thuật toán back-prop có đạo hàm liên quan đến kích hoạt trước vì phương trình delta là: $\hat{x}$ $\frac{ \partial l }{ \partial \hat{x} }$

δ_{j}^{(l)} = \frac{\partial L}{\partial z_{j}^{(l)}}

$\delta^{(l)}_j = \frac{\partial L}{\partial z^{(l)}_j}$

Một điều nữa làm tôi bối rối là:

Khi đó . $u + (b + \Delta b) - E[u + (b + \Delta b)] = u + b - E[u + b]$

họ không thực sự nói những gì họ đang cố gắng tính toán trong phương trình trên nhưng tôi sẽ suy luận rằng họ đang cố gắng tính toán kích hoạt chuẩn hóa cập nhật (cho lớp đầu tiên?) sau khi được cập nhật lên ? Không chắc chắn nếu tôi mua điểm của họ bởi vì tôi nghĩ rằng phương trình chính xác nên có: $b$ $b + \Delta b$

\hat{x} = θ (u + (b + Δ b)) - E [θ (u + (b + Δ b))]

$\hat{x} = \theta( u + (b + \Delta b) ) - E[\theta( u + (b + \Delta b) )]$

không hủy sự thay đổi trong tham số . Tuy nhiên, tôi không thực sự biết họ đang làm gì nên tôi chỉ đoán thôi. Chính xác thì phương trình mà họ đã viết là gì? $\Delta b$ $b$

Tôi không chắc đây có phải là sự hiểu biết đúng đắn hay không nhưng tôi đã suy nghĩ một chút về ví dụ của họ. Có vẻ như ví dụ của họ không có đơn vị kích hoạt phi tuyến tính (sử dụng danh tính) và họ chỉ nói về lớp đầu vào đầu tiên? Vì họ đã bỏ qua rất nhiều chi tiết và ký hiệu không rõ ràng nên tôi không thể suy luận chính xác những gì họ đang nói. Có ai biết làm thế nào để diễn tả ví dụ này với ký hiệu diễn tả những gì đang diễn ra ở mỗi lớp không? Có ai hiểu những gì đang thực sự xảy ra với ví dụ đó và muốn chia sẻ sự khôn ngoan của họ với tôi không?

[1]: Ioffe S. và Szegedy C. (2015),
"Bình thường hóa hàng loạt: Tăng tốc đào tạo mạng lưới sâu bằng cách giảm sự thay đổi đồng biến nội bộ",
Kỷ yếu của Hội nghị quốc tế về học máy lần thứ 32 , Lille, Pháp, 2015.
Tạp chí học máy Nghiên cứu: W & CP tập 37

machine-learning neural-networks conv-neural-network

— Charlie Parker
nguồn

Tôi nghĩ rằng bản chất công chứng của đoạn đó hiện rõ ràng nhưng thông điệp mà nó đang cố gắng truyền tải và mục đích của nó thì không rõ ràng.

— Charlie Parker

Tôi nghĩ rằng toàn bộ điểm của đoạn này là, nếu một bước giảm độ dốc bỏ qua sự phụ thuộc của vào , việc cập nhật thuật ngữ b thiên vị sẽ dẫn đến không có thay đổi nào về đầu ra $E[x]$ $b$ , như được tuyên bố trong câu trước nó,

Tuy nhiên, nếu các sửa đổi này được xen kẽ với các bước tối ưu hóa, thì bước giảm độ dốc có thể cố gắng cập nhật các tham số theo cách yêu cầu chuẩn hóa phải được cập nhật, làm giảm hiệu ứng của bước gradient.

Do đó, họ đã thực hiện bước giảm độ dốc nhận thức về sự chuẩn hóa trong phương thức của họ.

Về câu hỏi của bạn

Liên quan đến điều này, tôi đoán những gì họ gọi có thể là ? $u$ $x^{(l)}$

Như đã tuyên bố trong câu đầu tiên của họ, là đầu vào của lớp. Những gì thực sự dường như không quan trọng, vì chúng chỉ minh họa hiệu ứng của trong ví dụ. $u$ $u$ $b$

Tôi đã nghĩ có ý nghĩa hơn là lấy đạo hàm đối với các kích hoạt chuẩn hóa. $\Delta b \propto -\frac{\partial l}{\partial b }$

Chúng tôi biết , vì chúng tôi đang bỏ qua sự phụ thuộc của vào , chúng tôi có vì vậy . $\hat{x}=x-E[x]=u+b-E[x]$ $E[x]$ $b$

\frac{\partial l}{\partial b} = \frac{\partial l}{\partial \hat{x}} \frac{\partial \hat{x}}{\partial b} = \frac{\partial l}{\partial \hat{x}},

$\frac{\partial l}{\partial b}=\frac{\partial l}{\partial \hat{x}}\frac{\partial \hat{x}}{\partial b} = \frac{\partial l}{\partial \hat{x}},$

Δ b \propto - \frac{\partial l}{\partial \hat{x}}

$\Delta b \propto -\frac{\partial l}{\partial \hat{x}}$

$u + (b + \Delta b) - E[u + (b + \Delta b)] = u + b - E[u + b]$ họ không thực sự nói những gì họ đang cố gắng tính theo phương trình trên nhưng Tôi sẽ suy luận rằng họ đang cố gắng tính toán kích hoạt chuẩn hóa được cập nhật (cho lớp đầu tiên?) Sau khi được cập nhật thành ? $b$ $b+\Delta b$

Nó đang tính toán sau khi được cập nhật thành , để cho thấy rằng nếu bước giảm độ dốc bỏ qua sự phụ thuộc của vào , việc cập nhật thuật ngữ thiên vị b sẽ không dẫn đến thay đổi trong đầu ra. $\hat{x}$ $b$ $b+\Delta b$ $E[x]$ $b$

Có thể hữu ích khi xem xét một số triển khai nguồn mở của chuẩn hóa hàng loạt, ví dụ như ở Lasagne và Keras .

Có một câu hỏi khác có vẻ liên quan, Tại sao lại lấy độ dốc của các khoảnh khắc (trung bình và phương sai) khi sử dụng Batch Chuẩn hóa trong Mạng thần kinh?

— không
nguồn

Vì vậy, tôi đoán quan điểm của họ là họ cần phải cập nhật GD nhận thức về việc chuẩn hóa để mất thay đổi khi cập nhật sai lệch? Hay mục tiêu trung tâm của đoạn đó là gì?

— Charlie Parker

@CharlieParker yep Tôi đoán vậy, để cho thấy có một lý do để làm cho cập nhật GD nhận thức được sự chuẩn hóa (IMO).

— dontloo

Là E [Δb] = b? Nếu vậy, tại sao?

— MichaelSB