Tại sao ReLU không bị rò rỉ luôn thích ReLU hơn với độ dốc bằng 0 cho x <0?

Đối với tôi, ReLU bị rò rỉ sẽ có hiệu suất tốt hơn nhiều vì ReLU tiêu chuẩn không thể sử dụng một nửa không gian của nó (x <0 trong đó độ dốc bằng 0). Nhưng điều này không xảy ra và trong thực tế hầu hết mọi người sử dụng ReLU tiêu chuẩn.

neural-network gradient-descent

— Cám Ds
nguồn

Câu hỏi của bạn làm tôi bối rối, chính xác những gì bạn muốn biết? Ngoài ra, bạn có thể cắt giảm tiêu đề và thêm nhiều hơn trong nội dung. "Tất cả" đang sử dụng nghĩa là gì? Bạn có nghĩa là entre ngạc nhiên chung? Bạn đề cập rằng ReLU bị rò rỉ sẽ hoạt động tốt hơn trong nội dung câu hỏi nhưng lại mâu thuẫn với chính bạn trong tiêu đề.

— Hima Varsha

Một lý do mà các đơn vị ReL đã được giới thiệu là để tránh vấn đề biến mất độ dốc của các đơn vị sigmoidal ở -1 và 1.

Một ưu điểm khác của Đơn vị ReL là chúng bão hòa ở chính xác 0 cho phép biểu diễn thưa thớt, có thể hữu ích khi các đơn vị ẩn được sử dụng làm đầu vào cho phân loại. Độ dốc bằng không có thể có vấn đề trong trường hợp đơn vị không bao giờ kích hoạt trong kịch bản dựa trên độ dốc khi đơn vị ban đầu không được kích hoạt.

Vấn đề này có thể được giảm bớt bằng cách sử dụng các đơn vị ReL bị rò rỉ. Mặt khác, các đơn vị ReL bị rò rỉ không có khả năng tạo ra một đại diện thưa thớt cứng bằng không có thể hữu ích trong một số trường hợp nhất định. Vì vậy, có một chút đánh đổi và, nói chung với NN, nó phụ thuộc vào các trường hợp sử dụng khi đơn vị nào hoạt động tốt hơn. Trong hầu hết các trường hợp, nếu cài đặt ban đầu có thể đảm bảo rằng Đơn vị ReL được kích hoạt (ví dụ: bằng cách đặt độ lệch thành giá trị dương nhỏ), người ta sẽ mong đợi ReL và các đơn vị Rel bị rò rỉ thực hiện tương tự nhau.

Ngoài ra, RelU rò rỉ (nếu tham số) giới thiệu một tham số khác (độ dốc cho ) cần phải học trong quá trình đào tạo và do đó thêm thời gian đào tạo / phức tạp hơn. $x<0$

— oW_
nguồn