Đối với tôi, ReLU bị rò rỉ sẽ có hiệu suất tốt hơn nhiều vì ReLU tiêu chuẩn không thể sử dụng một nửa không gian của nó (x <0 trong đó độ dốc bằng 0). Nhưng điều này không xảy ra và trong thực tế hầu hết mọi người sử dụng ReLU tiêu chuẩn.
Đối với tôi, ReLU bị rò rỉ sẽ có hiệu suất tốt hơn nhiều vì ReLU tiêu chuẩn không thể sử dụng một nửa không gian của nó (x <0 trong đó độ dốc bằng 0). Nhưng điều này không xảy ra và trong thực tế hầu hết mọi người sử dụng ReLU tiêu chuẩn.
Câu trả lời:
Một lý do mà các đơn vị ReL đã được giới thiệu là để tránh vấn đề biến mất độ dốc của các đơn vị sigmoidal ở -1 và 1.
Một ưu điểm khác của Đơn vị ReL là chúng bão hòa ở chính xác 0 cho phép biểu diễn thưa thớt, có thể hữu ích khi các đơn vị ẩn được sử dụng làm đầu vào cho phân loại. Độ dốc bằng không có thể có vấn đề trong trường hợp đơn vị không bao giờ kích hoạt trong kịch bản dựa trên độ dốc khi đơn vị ban đầu không được kích hoạt.
Vấn đề này có thể được giảm bớt bằng cách sử dụng các đơn vị ReL bị rò rỉ. Mặt khác, các đơn vị ReL bị rò rỉ không có khả năng tạo ra một đại diện thưa thớt cứng bằng không có thể hữu ích trong một số trường hợp nhất định. Vì vậy, có một chút đánh đổi và, nói chung với NN, nó phụ thuộc vào các trường hợp sử dụng khi đơn vị nào hoạt động tốt hơn. Trong hầu hết các trường hợp, nếu cài đặt ban đầu có thể đảm bảo rằng Đơn vị ReL được kích hoạt (ví dụ: bằng cách đặt độ lệch thành giá trị dương nhỏ), người ta sẽ mong đợi ReL và các đơn vị Rel bị rò rỉ thực hiện tương tự nhau.
Ngoài ra, RelU rò rỉ (nếu tham số) giới thiệu một tham số khác (độ dốc cho ) cần phải học trong quá trình đào tạo và do đó thêm thời gian đào tạo / phức tạp hơn.