Tại sao ReLU được sử dụng như một chức năng kích hoạt?


19

Các chức năng kích hoạt được sử dụng để giới thiệu phi tuyến tính trong đầu ra tuyến tính của loại w * x + btrong mạng thần kinh.

Mà tôi có thể hiểu trực giác cho các chức năng kích hoạt như sigmoid.

Tôi hiểu những lợi thế của ReLU, đó là tránh các tế bào thần kinh chết trong quá trình truyền ngược. Tuy nhiên, tôi không thể hiểu tại sao ReLU được sử dụng làm chức năng kích hoạt nếu đầu ra của nó là tuyến tính?

Không phải toàn bộ điểm là chức năng kích hoạt sẽ bị đánh bại nếu nó không giới thiệu tính phi tuyến tính?

Câu trả lời:


19

Trong toán học, một hàm được coi là tuyến tính bất cứ khi nào một fucntion nếu với mọi và trong miền có thuộc tính sau: . Theo định nghĩa, ReLU là . Do đó, nếu chúng ta tách miền từ hoặc thì hàm là tuyến tính. Tuy nhiên, thật dễ dàng để thấy rằng . Do đó theo định nghĩa ReLU không tuyến tính. x y A f ( x ) + f ( y ) = f ( x + y ) m a x ( 0 , x ) ( - , 0 ] [ 0 , ) f ( - 1 ) + f ( 1 ) f ( 0 )f:ABxyAf(x)+f(y)=f(x+y)max(0,x)(,0][0,)f(1)+f(1)f(0)

Tuy nhiên, ReLU gần với tuyến tính đến mức điều này thường khiến mọi người nhầm lẫn và tự hỏi làm thế nào nó có thể được sử dụng như một xấp xỉ phổ quát. Theo kinh nghiệm của tôi, cách tốt nhất để nghĩ về họ giống như số tiền Riemann. Bạn có thể tính gần đúng mọi hàm liên tục với nhiều hình chữ nhật nhỏ. Kích hoạt ReLU có thể tạo ra rất nhiều hình chữ nhật nhỏ. Trên thực tế, trong thực tế, ReLU có thể tạo ra các hình dạng khá phức tạp và xấp xỉ nhiều miền phức tạp.

Tôi cũng cảm thấy muốn làm rõ một điểm khác. Như được chỉ ra bởi một câu trả lời trước đó, tế bào thần kinh không chết trong Sigmoid, mà biến mất. Lý do cho điều này là bởi vì tối đa đạo hàm của hàm sigmoid là 0,25. Do đó, sau rất nhiều lớp, bạn sẽ nhân các gradient này và sản phẩm có số lượng rất nhỏ dưới 1 có xu hướng giảm về 0 rất nhanh.

Do đó, nếu bạn đang xây dựng một mạng lưới học tập sâu với nhiều lớp, các chức năng sigmoid của bạn về cơ bản sẽ bị đình trệ khá nhanh và trở nên vô dụng.

Điểm mấu chốt là sự biến mất đến từ việc nhân các gradient chứ không phải chính các gradient.


6

Tôi hiểu những lợi thế của ReLU, đó là tránh các tế bào thần kinh chết trong quá trình truyền ngược.

Điều này không hoàn toàn đúng. Các tế bào thần kinh không chết. Nếu bạn sử dụng kích hoạt giống như sigmoid, sau một số lần lặp, giá trị của gradient bão hòa đối với hầu hết các tế bào thần kinh. Giá trị của gradient sẽ rất nhỏ và quá trình học tập diễn ra rất chậm. Đây là sự biến mất và bùng nổ độ dốc đã có trong các chức năng kích hoạt giống như sigmoid. Ngược lại, các tế bào thần kinh đã chết có thể xảy ra nếu bạn sử dụng ReLUphi tuyến, được gọi là ReLU sắp chết .

Tôi không thể hiểu tại sao ReLU được sử dụng làm chức năng kích hoạt nếu đầu ra của nó là tuyến tính

Chắc chắn nó không tuyến tính. Như một định nghĩa đơn giản, hàm tuyến tính là một hàm có cùng đạo hàm cho các đầu vào trong miền của nó.

Hàm tuyến tính là phổ biến trong kinh tế. Nó hấp dẫn bởi vì nó đơn giản và dễ dàng để xử lý toán học. Nó có nhiều ứng dụng quan trọng. Hàm tuyến tính là những hàm có đồ thị là một đường thẳng. Hàm tuyến tính có dạng sau:

y = f (x) = a + bx

Hàm tuyến tính có một biến độc lập và một biến phụ thuộc. Biến độc lập là x và biến phụ thuộc là y.

a là số hạng không đổi hoặc y chặn. Nó là giá trị của biến phụ thuộc khi x = 0.

b là hệ số của biến độc lập. Nó còn được gọi là độ dốc và cho tốc độ thay đổi của biến phụ thuộc.

ReLUkhông tuyến tính . Câu trả lời đơn giản là ReLUđầu ra không phải là một đường thẳng, nó uốn cong theo trục x. Điểm thú vị hơn là hậu quả của sự phi tuyến tính này. Nói một cách đơn giản, các hàm tuyến tính cho phép bạn phân tích mặt phẳng tính năng bằng cách sử dụng một đường thẳng. Nhưng với tính phi tuyến tính của ReLUs, bạn có thể xây dựng các đường cong có hình dạng tùy ý trên mặt phẳng tính năng.

ReLUcó thể có một bất lợi đó là giá trị mong đợi của nó. Không có giới hạn cho đầu ra của Reluvà giá trị mong đợi của nó không bằng không. Tanhđã phổ biến hơn sigmoidvì giá trị mong đợi của nó bằng 0 và việc học ở các lớp sâu hơn xảy ra nhanh hơn. Mặc dù ReLUkhông có lợi thế nàybatch normalization giải quyết vấn đề này .

Bạn cũng có thể tham khảo tại đâyở đây để biết thêm thông tin.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.