Tại sao các chức năng kích hoạt không tập trung không phải là một vấn đề trong backpropagation?

Tôi đọc ở đây như sau:

Đầu ra Sigmoid không phải là trung tâm không . Điều này là không mong muốn vì các nơ-ron trong các lớp xử lý sau này trong Mạng thần kinh (sẽ sớm có thêm thông tin này) sẽ nhận được dữ liệu không phải là trung tâm. Này có ý nghĩa về sự năng động trong gradient descent, bởi vì nếu các dữ liệu đi vào một tế bào thần kinh luôn luôn là tích cực (ví dụ elementwise trong )), sau đó gradient trên trọng lượng chí trong lan truyền ngược trở hoặc tất cả đều dương hoặc tất cả âm (tùy thuộc vào độ dốc của toàn bộ biểu thức $x > 0$ $f = w^Tx + b$ $w$ $f$ ). Điều này có thể giới thiệu động lực zig-zagging không mong muốn trong các bản cập nhật độ dốc cho các trọng số. Tuy nhiên, lưu ý rằng một khi các gradient này được thêm vào trong một loạt dữ liệu, bản cập nhật cuối cùng cho các trọng số có thể có các dấu hiệu khác nhau, phần nào giảm thiểu vấn đề này. Do đó, đây là một sự bất tiện nhưng nó có hậu quả ít nghiêm trọng hơn so với vấn đề kích hoạt bão hòa ở trên.

Tại sao có tất cả (theo nguyên tố) sẽ dẫn đến độ dốc toàn dương hoặc toàn âm trên ? $x>0$ $w$

neural-networks deep-learning backpropagation

— Amelio Vazquez-Reina
nguồn

Tôi cũng có cùng một câu hỏi khi xem video CS231n.

— tàu điện ngầm

f = \sum w_{i} x_{i} + b

$f=\sum w_ix_i+b$

\frac{d f}{d w_{i}} = x_{i}

$\frac{df}{dw_i}=x_i$

\frac{d L}{d w_{i}} = \frac{d L}{d f} \frac{d f}{d w_{i}} = \frac{d L}{d f} x_{i}

$\frac{dL}{dw_i}=\frac{dL}{df}\frac{df}{dw_i}=\frac{dL}{df}x_i$

bởi vì , gradient luôn có cùng dấu với (tất cả dương hoặc tất cả âm). $x_i>0$ $\dfrac{dL}{dw_i}$ $\dfrac{dL}{df}$

Cập nhật
Giả sử có hai tham số và , nếu độ dốc của hai chiều luôn có cùng dấu, điều đó có nghĩa là chúng ta chỉ có thể di chuyển thô theo hướng đông bắc hoặc tây nam trong không gian tham số. $w_1$ $w_2$

Nếu mục tiêu của chúng tôi là ở phía đông bắc, chúng tôi chỉ có thể di chuyển theo kiểu ngoằn ngoèo để đến đó, giống như đỗ xe song song trong một không gian hẹp. (tha thứ cho bản vẽ của tôi)

Do đó, các chức năng kích hoạt hoàn toàn tích cực hoặc hoàn toàn tiêu cực (relu, sigmoid) có thể khó khăn cho việc tối ưu hóa dựa trên độ dốc. Để giải quyết vấn đề này, chúng ta có thể chuẩn hóa dữ liệu trước thành không tập trung như trong chuẩn hóa lô / lớp.

Ngoài ra, một giải pháp khác tôi có thể nghĩ đến là thêm một thuật ngữ sai lệch cho mỗi đầu vào để lớp trở thành Độ dốc là dấu hiệu sẽ không phụ thuộc hoàn toàn vào .

f = \sum w_{i} (x_{i} + b_{i}) .

$f=\sum w_i(x_i+b_i).$

\frac{d L}{d w_{i}} = \frac{d L}{d f} (x_{i} - b_{i})

$\frac{dL}{dw_i}=\frac{dL}{df}(x_i-b_i)$

x_{i}

$x_i$

— không
nguồn

Vui lòng sửa lại cho tôi nếu tôi sai nhưng không nên thay đổi giá trị của dL / df của x tức là xT vì chúng tôi sẽ sử dụng ý tưởng của Jacobin tại đây.

— chinmay

@chinmay xin lỗi vì những lời cuối, tôi nghĩ rằng ở đây là kết quả của vì vậy giá trị của dL / df không phụ thuộc vào x, và thường là một đại lượng vô hướng, và là vectơ 1d, vì vậy dL / df cũng nên là một vô hướng, phải không?

f

$f$

w^{T} x + b

$w^Tx+b$

L

$L$

w

$w$

x

$x$

— dontloo

Vâng, đó là một lỗi đánh máy lớn từ cuối của tôi. Ý tôi là df / dw .... nhưng tôi nghĩ nó phụ thuộc nhiều hơn vào vectơ x và nếu đó là vectơ hàng hay vectơ cột

— chinmay

@dontloo xin lỗi vì đã trả lời rất muộn nhưng vấn đề với các gradient có cùng dấu với gì? Tại sao đó lại là một điều xấu?

d L / d f

$d L/d f$

— floyd

@floyd hi Tôi vừa thêm một số cập nhật cho câu hỏi của bạn

— dontloo