10

Bây giờ tôi đã đọc một cuốn sách có tựa đề "Học máy thực hành với Scikit-Learn và TensorFlow" và trên chương 11, nó có mô tả sau đây về lời giải thích của ELU (ReLU ReLential).

Thứ ba, chức năng hoạt động trơn tru ở mọi nơi, bao gồm khoảng z = 0, giúp tăng tốc độ Giảm dần, vì nó không bị trả lại nhiều như trái và phải của z = 0.

Có znghĩa là trục x trên biểu đồ trên. Tôi hiểu đạo hàm là trơn tru vì z < 0đường thẳng có một đường cong và trong lĩnh vực đó đạo hàm không còn bằng 0.

Tuy nhiên, tại sao trường hợp chức năng này "trơn tru ở mọi nơi, bao gồm khoảng z = 0", nó sẽ tăng tốc độ Gradient Descent?

deep-learning gradient-descent

— Blaszard
nguồn

Tôi có đúng SE không? Khoa học dữ liệu, Trí tuệ nhân tạo và Xác thực chéo, (và cả MathSE) ... dường như với tôi rằng nhiều chủ đề có liên quan cao với nhau ...

— Blaszard

2

Tôi nghĩ rằng bạn sẽ an toàn khi đăng câu hỏi này tại đây trên Khoa học dữ liệu hoặc trên Xác thực chéo. Có thể nó cũng ổn đối với Trí tuệ nhân tạo, nhưng tôi ít quen thuộc với trang web đó.

— Neil Slater

Câu hỏi hay. Độ mượt cho phép bạn thực hiện các bước táo bạo theo đúng hướng thay vì thực hiện các bước bé vì độ dốc có thể thay đổi mạnh mẽ ở bước tiếp theo. Để phân tích hội tụ, hãy xem, ví dụ, Giảm tốc độ tăng tốc của Nesterov để tối ưu hóa lồi và mạnh mẽ

— Emre

@NeilSlater AI có phạm vi rất không rõ ràng. Họ đóng những câu hỏi như vậy. Vì vậy, DS và CV sẽ là những lựa chọn tốt nhất :)

— Dawny33

1

Tôi đoán đó là do đạo hàm, vì ReLU có đạo hàm không liên tục ở mức 0. Do đó, nếu bạn sử dụng định nghĩa:

f^{'} \approx \frac{f (x + ϵ) - f (x - ϵ)}{2 ϵ}

$f' \approx \frac{f(x+\epsilon) -f(x-\epsilon)}{2 \epsilon}$

$x$

— Alex
nguồn

0

Sơ bộ: có ba thuộc tính của hàm có liên quan ở đây: liên tục, đơn điệu và khác biệt. RELU là hạt liên tục và đơn điệu không phân biệt ở z = 0. Relu theo cấp số nhân hoặc ELU là cả ba thuộc tính đó.

Sự khác biệt hoặc độ dốc cung cấp cho bạn một hướng. Khi đạo hàm của một hàm không được xác định tại một điểm, thì hướng của gradient không xác định tại điểm đó.

Khi áp dụng giảm độ dốc, chúng tôi muốn liên tục sửa đổi các tham số sao cho hàm mất dần giảm, điều này giống như chúng tôi muốn tiếp tục giảm xuống mức tối thiểu.

Khi đạo hàm của hàm mất không xác định tại một thời điểm nào đó, độ dốc không xác định. Điều này có nghĩa là độ dốc gốc có thể có khả năng di chuyển sai hướng. Mức độ chậm trễ gây ra bởi sự không xác định này phụ thuộc vào tốc độ học tập và các thông số siêu khác. Bất kể các tham số siêu, theo thống kê, đạo hàm không xác định trong RELU tại z = 0, không góp phần làm chậm quá trình hội tụ của độ dốc.

— Năng động Stardust
nguồn

Rất có khả năng tham số trở thành chính xác z = 0 sau khi khởi tạo.

— Pieter

0

Nhanh hơn hoặc thấp hơn là một thuật ngữ tương đối và phải được hiểu trong bối cảnh của những gì nó được so sánh với. Vì vậy, để hiểu điều này, trước tiên chúng ta phải xem xét cách thức giảm độ dốc hoạt động với các loại chức năng kích hoạt khác.

Thiết lập ví dụ

$n$

$z_1 = W_1 x + b_1$

$a_1 = f(z_1)$

...

$z_n = W_n a_{n-1} + b_n$

$y = f(z_n)$

$f$

Tanh và Sigmoid - Gradient biến mất

$f$ $f'(x) \in (-1, 1)$ $x$

$y$ $W_1$

\frac{d f}{d W_{1}} = \frac{d f}{d W_{n}} \frac{d W_{n}}{d W_{n - 1}} . . . \frac{d W_{2}}{d W_{1}}

$\frac{df}{dW_1} = \frac{df}{dW_{n}} \frac{dW_{n}}{dW_{n-1}} ... \frac{dW_{2}}{dW_{1}}$

$0 < i < n$

\frac{d X_{Tôi}}{d X_{Tôi - 1}} = = f^{'} (W_{Tôi - 1} {một}_{Tôi - 2} + b_{Tôi - 1}) \times {một}_{Tôi - 2} \in (- 1, 1)

$\frac{dX_{i}}{dX_{i-1}} = f'(W_{i-1}a_{i-2} + b_{i-1}) \times a_{i-2} \in (-1, 1)$

$(-1, 1)$ $f'$ $a_{i-2}$ $(-1, 1)$

$\frac{df}{dW_1}$ $n$ $\frac{df}{dW_1}$

RELU và Thần kinh chết

$a_i > 0$ $f$

\frac{d X_{Tôi}}{d X_{Tôi - 1}} = = {một}_{Tôi - 2}

$\frac{dX_{i}}{dX_{i-1}} = a_{i-2}$

\frac{d f}{d W_{1}} = = {một}_{1} {một}_{2} {một}_{3} . . . {một}_{n - 1}

$\frac{df}{dW_1} = a_1 a_2 a_3 ... a_{n-1}$

$x > 0$ $x < 0$

Rò rỉ RELU và ELU

$x > 0$ $x<1$

Tôi trích dẫn giấy gốc cho sự khác biệt giữa hai.

Mặc dù LReLU và PReLU cũng có các giá trị âm, nhưng chúng không đảm bảo trạng thái khử kích hoạt mạnh. ELU bão hòa đến một giá trị âm với các đầu vào nhỏ hơn và do đó làm giảm thông tin và biến thể lan truyền về phía trước.

Các giải thích trực quan đi như sau. Trong ELU, bất cứ khi nào x trở nên đủ nhỏ, độ dốc trở nên thực sự nhỏ và bão hòa (giống như cách nó xảy ra với Tanh và Sigmoid). Độ dốc nhỏ có nghĩa là thuật toán học tập có thể tập trung vào việc điều chỉnh các trọng số khác mà không phải lo lắng về sự tương tác với các tế bào thần kinh bão hòa.

Hãy xem xét một đa thức bậc 2 có thể được biểu diễn dưới dạng một bề mặt nhẵn trong không gian 3 chiều. Để tìm mức tối thiểu cục bộ, thuật toán giảm độ dốc sẽ cần xem xét độ dốc theo cả hai hướng x và y. Nếu độ dốc cả âm theo hướng x và hướng y, thì không rõ cách nào tốt hơn. Vì vậy, thật hợp lý khi chọn một con đường ở đâu đó ở giữa. Nhưng điều gì sẽ xảy ra nếu chúng ta đã biết mọi thứ đều bằng phẳng (độ dốc bằng không) theo hướng x, thì nó sẽ trở thành không có trí tuệ để đi theo hướng y. Hay nói cách khác, bạn tìm kiếm không gian trở nên nhỏ hơn nhiều.

đặc biệt lưu ý

Trong học tập sâu, có rất nhiều tuyên bố mà không có đủ bằng chứng thực nghiệm hoặc hiểu biết sâu sắc để hỗ trợ nó. Trong trường hợp của ELU, mặc dù có thể đúng là nó dẫn đến sự hội tụ nhanh hơn cho một số bộ dữ liệu, nhưng cũng có thể đúng là nó làm cho thuật toán học bị kẹt ở mức tối đa cục bộ cho một tập dữ liệu khác. Chúng tôi chỉ chưa biết đủ.

— Louis T
nguồn

0

Tôi có một khái niệm trực quan về lý do tại sao các chức năng trơn tru nhanh hơn để tối ưu hóa nhưng không có bằng chứng toán học hay bất cứ điều gì.

Độ dốc gốc tính toán đạo hàm của hàm kích hoạt để xác định sự thay đổi về trọng số. Khi chức năng kích hoạt bị cắt cứng (ví dụ tại z = 0 đối với ReLu), kích hoạt của đơn vị có thể thay đổi hoàn toàn (tức là luôn bằng 0 hoặc tuyến tính) cho các điểm dữ liệu cụ thể khi thay đổi trọng số.

Các trọng số khác cần phải tuân theo hành vi hoàn toàn khác biệt này của một đơn vị cụ thể đối với các điểm dữ liệu cụ thể. Tuy nhiên, nếu hành vi của đơn vị thay đổi hoàn toàn một lần nữa trong kỷ nguyên tiếp theo, mạng tiếp tục cố gắng hướng tới những thay đổi trong kỷ nguyên trước.

Với một chức năng trơn tru không có thay đổi triệt để như vậy. Và do đó, mạng có thể dần ổn định hơn.

— Thành phố
nguồn

Tại sao nó tăng tốc độ giảm độ dốc nếu chức năng trơn tru?

Thiết lập ví dụ

Tanh và Sigmoid - Gradient biến mất

RELU và Thần kinh chết

Rò rỉ RELU và ELU

đặc biệt lưu ý