Kết hợp ReLU, biến thể rò rỉ 1 tham số hóa và biến thể với tham số động trong quá trình học gây nhầm lẫn hai điều khác biệt:
- Sự so sánh giữa ReLU với biến thể rò rỉ có liên quan mật thiết đến việc có nhu cầu hay không, trong trường hợp ML cụ thể, để tránh bão hòa - Saturation là sự mất tín hiệu đối với độ dốc 0 hoặc sự thống trị của nhiễu hỗn loạn phát sinh từ kỹ thuật số làm tròn 3 .
- Việc so sánh giữa kích hoạt đào tạo động (được gọi là tham số trong tài liệu) và kích hoạt tĩnh đào tạo phải dựa trên việc các đặc tính phi tuyến tính hoặc không trơn tru của kích hoạt có bất kỳ giá trị nào liên quan đến tốc độ hội tụ 4 hay không .
Lý do ReLU không bao giờ là tham số là để làm cho nó trở nên dư thừa. Trong miền âm, nó là số không. Trong miền không âm, đạo hàm của nó là hằng số. Vì vectơ đầu vào kích hoạt đã bị suy giảm với sản phẩm ma trận vectơ (trong đó ma trận, khối lập phương hoặc siêu khối chứa các tham số suy giảm), không có mục đích hữu ích nào trong việc thêm tham số để thay đổi đạo hàm không đổi cho miền không âm .
Khi có độ cong trong quá trình kích hoạt, không còn đúng nữa là tất cả các hệ số kích hoạt đều dư thừa dưới dạng tham số. Giá trị của chúng có thể thay đổi đáng kể quá trình đào tạo và do đó tốc độ và độ tin cậy của sự hội tụ.
Đối với các mạng lưới thực sự sâu sắc, sự dư thừa tái hiện, và có bằng chứng về điều này, cả về lý thuyết và thực hành trong tài liệu.
- Theo thuật ngữ đại số, sự chênh lệch giữa ReLU và kích hoạt động tham số xuất phát từ nó tiến gần đến 0 khi độ sâu (tính theo số lớp) tiến đến vô cùng.
- Theo thuật ngữ mô tả, ReLU có thể tính chính xác các hàm với độ cong 5 nếu được cung cấp đủ số lượng lớp để làm như vậy.
Đó là lý do tại sao giống ELU, thuận lợi cho việc khắc phục các vấn đề bão hòa được đề cập ở trên đối với các mạng nông hơn không được sử dụng cho các mạng sâu hơn.
Vì vậy, người ta phải quyết định hai điều.
- Việc kích hoạt tham số có hữu ích hay không thường dựa trên thử nghiệm với một số mẫu từ dân số thống kê. Nhưng không cần phải thử nghiệm tất cả với nó nếu độ sâu lớp cao.
- Liệu biến thể rò rỉ có giá trị hay không có liên quan nhiều đến các phạm vi số gặp phải trong quá trình lan truyền ngược. Nếu độ dốc trở nên nhỏ một cách đáng kinh ngạc trong quá trình lan truyền trở lại tại bất kỳ điểm nào trong quá trình đào tạo, một phần không đổi của đường cong kích hoạt có thể có vấn đề. Trong một trường hợp như vậy, một trong những chức năng trơn tru hoặc RelU bị rò rỉ với hai độ dốc khác không có thể cung cấp giải pháp thích hợp.
Tóm lại, sự lựa chọn không bao giờ là sự lựa chọn của sự thuận tiện.
Chú thích
[1] Các tham số siêu là các tham số ảnh hưởng đến tín hiệu thông qua lớp không phải là một phần của suy giảm đầu vào cho lớp đó. Các trọng số suy giảm là các tham số. Bất kỳ tham số nào khác nằm trong tập hợp các tham số siêu. Điều này có thể bao gồm tốc độ học tập, giảm tần số cao trong lan truyền ngược và nhiều loại điều khiển học tập khác được đặt cho toàn bộ lớp, nếu không phải là toàn bộ mạng.
[2] Nếu độ dốc bằng 0, thì không thể có bất kỳ sự điều chỉnh thông minh nào của các tham số vì hướng điều chỉnh không xác định và cường độ của nó phải bằng không. Việc học dừng lại.
[3] Nếu nhiễu hỗn loạn, có thể phát sinh khi CPU làm tròn các giá trị cực nhỏ thành biểu diễn kỹ thuật số gần nhất của chúng, sẽ chi phối tín hiệu hiệu chỉnh được truyền trở lại các lớp, khi đó việc hiệu chỉnh trở nên vô nghĩa và việc học dừng lại.
[4] Tốc độ hội tụ là thước đo tốc độ (tương đối với micro giây hoặc liên quan đến chỉ số lặp của thuật toán) trong đó kết quả học tập (hành vi hệ thống) tiếp cận những gì được coi là đủ tốt. Đó thường là một số gần nhất định với một số tiêu chí chấp nhận chính thức cho sự hội tụ (học tập).
[5] Các chức năng có độ cong là những chức năng không được hình dung là thẳng hoặc phẳng. Một parabola có độ cong. Một đường thẳng không. Bề mặt của một quả trứng có độ cong. Một mặt phẳng hoàn hảo không. Về mặt toán học, nếu bất kỳ yếu tố nào của Hessian của hàm là khác không, thì hàm này có độ cong.