Những lợi thế của ReLU so với Leaky ReLU và ReLU tham số (nếu có) là gì?


10

Tôi nghĩ rằng lợi thế của việc sử dụng Leaky ReLU thay vì ReLU là theo cách này chúng ta không thể có độ dốc biến mất. ReLU tham số có cùng một lợi thế với sự khác biệt duy nhất là độ dốc của đầu ra cho đầu vào âm là một tham số có thể học được trong khi trong ReLU Leaky đó là một siêu tham số.

Tuy nhiên, tôi không thể biết liệu có trường hợp nào thuận tiện hơn khi sử dụng ReLU thay vì Leaky ReLU hoặc Parametric ReLU.

Câu trả lời:


7

Kết hợp ReLU, biến thể rò rỉ 1 tham số hóa và biến thể với tham số động trong quá trình học gây nhầm lẫn hai điều khác biệt:

  • Sự so sánh giữa ReLU với biến thể rò rỉ có liên quan mật thiết đến việc có nhu cầu hay không, trong trường hợp ML cụ thể, để tránh bão hòa - Saturation là sự mất tín hiệu đối với độ dốc 0 hoặc sự thống trị của nhiễu hỗn loạn phát sinh từ kỹ thuật số làm tròn 3 .
  • Việc so sánh giữa kích hoạt đào tạo động (được gọi là tham số trong tài liệu) và kích hoạt tĩnh đào tạo phải dựa trên việc các đặc tính phi tuyến tính hoặc không trơn tru của kích hoạt có bất kỳ giá trị nào liên quan đến tốc độ hội tụ 4 hay không .

Lý do ReLU không bao giờ là tham số là để làm cho nó trở nên dư thừa. Trong miền âm, nó là số không. Trong miền không âm, đạo hàm của nó là hằng số. Vì vectơ đầu vào kích hoạt đã bị suy giảm với sản phẩm ma trận vectơ (trong đó ma trận, khối lập phương hoặc siêu khối chứa các tham số suy giảm), không có mục đích hữu ích nào trong việc thêm tham số để thay đổi đạo hàm không đổi cho miền không âm .

Khi có độ cong trong quá trình kích hoạt, không còn đúng nữa là tất cả các hệ số kích hoạt đều dư thừa dưới dạng tham số. Giá trị của chúng có thể thay đổi đáng kể quá trình đào tạo và do đó tốc độ và độ tin cậy của sự hội tụ.

Đối với các mạng lưới thực sự sâu sắc, sự dư thừa tái hiện, và có bằng chứng về điều này, cả về lý thuyết và thực hành trong tài liệu.

  • Theo thuật ngữ đại số, sự chênh lệch giữa ReLU và kích hoạt động tham số xuất phát từ nó tiến gần đến 0 khi độ sâu (tính theo số lớp) tiến đến vô cùng.
  • Theo thuật ngữ mô tả, ReLU có thể tính chính xác các hàm với độ cong 5 nếu được cung cấp đủ số lượng lớp để làm như vậy.

Đó là lý do tại sao giống ELU, thuận lợi cho việc khắc phục các vấn đề bão hòa được đề cập ở trên đối với các mạng nông hơn không được sử dụng cho các mạng sâu hơn.

Vì vậy, người ta phải quyết định hai điều.

  • Việc kích hoạt tham số có hữu ích hay không thường dựa trên thử nghiệm với một số mẫu từ dân số thống kê. Nhưng không cần phải thử nghiệm tất cả với nó nếu độ sâu lớp cao.
  • Liệu biến thể rò rỉ có giá trị hay không có liên quan nhiều đến các phạm vi số gặp phải trong quá trình lan truyền ngược. Nếu độ dốc trở nên nhỏ một cách đáng kinh ngạc trong quá trình lan truyền trở lại tại bất kỳ điểm nào trong quá trình đào tạo, một phần không đổi của đường cong kích hoạt có thể có vấn đề. Trong một trường hợp như vậy, một trong những chức năng trơn tru hoặc RelU bị rò rỉ với hai độ dốc khác không có thể cung cấp giải pháp thích hợp.

Tóm lại, sự lựa chọn không bao giờ là sự lựa chọn của sự thuận tiện.


Chú thích

[1] Các tham số siêu là các tham số ảnh hưởng đến tín hiệu thông qua lớp không phải là một phần của suy giảm đầu vào cho lớp đó. Các trọng số suy giảm là các tham số. Bất kỳ tham số nào khác nằm trong tập hợp các tham số siêu. Điều này có thể bao gồm tốc độ học tập, giảm tần số cao trong lan truyền ngược và nhiều loại điều khiển học tập khác được đặt cho toàn bộ lớp, nếu không phải là toàn bộ mạng.

[2] Nếu độ dốc bằng 0, thì không thể có bất kỳ sự điều chỉnh thông minh nào của các tham số vì hướng điều chỉnh không xác định và cường độ của nó phải bằng không. Việc học dừng lại.

[3] Nếu nhiễu hỗn loạn, có thể phát sinh khi CPU làm tròn các giá trị cực nhỏ thành biểu diễn kỹ thuật số gần nhất của chúng, sẽ chi phối tín hiệu hiệu chỉnh được truyền trở lại các lớp, khi đó việc hiệu chỉnh trở nên vô nghĩa và việc học dừng lại.

[4] Tốc độ hội tụ là thước đo tốc độ (tương đối với micro giây hoặc liên quan đến chỉ số lặp của thuật toán) trong đó kết quả học tập (hành vi hệ thống) tiếp cận những gì được coi là đủ tốt. Đó thường là một số gần nhất định với một số tiêu chí chấp nhận chính thức cho sự hội tụ (học tập).

[5] Các chức năng có độ cong là những chức năng không được hình dung là thẳng hoặc phẳng. Một parabola có độ cong. Một đường thẳng không. Bề mặt của một quả trứng có độ cong. Một mặt phẳng hoàn hảo không. Về mặt toán học, nếu bất kỳ yếu tố nào của Hessian của hàm là khác không, thì hàm này có độ cong.


Bạn có ý nghĩa gì bởi Sự lựa chọn không bao giờ là sự lựa chọn thuận tiện ?
gvgramazio

@gvgramazio, Bạn đã viết, "thuận tiện hơn khi sử dụng ReLU," trong câu hỏi của bạn. Tôi đã chỉ ra rằng sự thuận tiện không phải là cơ sở mà sự lựa chọn được đưa ra. Có lẽ nó đi ra như quá khắc nghiệt? Tôi không có ý định. Các câu trên câu đó trong câu trả lời của tôi nhằm cung cấp các tiêu chí hữu ích hơn mà bạn có thể dựa vào quyết định của mình khi chọn chức năng kích hoạt.
FauChristian

Đừng lo lắng về việc quá khắc nghiệt, không phải là vấn đề với tôi. Tôi nghĩ đó là vấn đề ngôn ngữ nhiều hơn (tôi không phải là người nói tiếng Anh bản địa).
gvgramazio 27/07/18

Thực tế là, từ những gì tôi đã hiểu, bạn giải thích rõ trong trường hợp nào tôi nên thích một biến thể đối với các biến thể khác. Điều tôi vẫn không hiểu là khi nào tôi nên thích kiểu cổ điển. ví dụ: biến thể rò rỉ có thể cung cấp một giải pháp thích hợp để biến mất độ dốc nhưng nếu nó không có bất kỳ nhược điểm nào, tôi luôn có thể chọn biến thể rò rỉ liên quan đến ReLU.
gvgramazio

@FauChristian bạn có thể vui lòng thêm một số thuật ngữ và trực giác thông tục hơn không, tôi không quá quen thuộc với ngôn ngữ toán học :)
DuttaA
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.