Vì vậy, hiện tại các chức năng kích hoạt được sử dụng phổ biến nhất là Re-Lu. Vì vậy, tôi đã trả lời câu hỏi này Mục đích của chức năng kích hoạt trong Mạng nơ-ron là gì? và trong khi viết câu trả lời, tôi nhận ra, làm thế nào chính xác chức năng phi tuyến tính gần đúng của Re-Lu?
Theo định nghĩa toán học thuần túy, chắc chắn, đó là hàm phi tuyến tính do uốn cong sắc nét, nhưng nếu chúng ta chỉ giới hạn ở phần dương hoặc phần âm của trục x, thì tuyến tính của nó trong các vùng đó. Giả sử chúng ta cũng sử dụng toàn bộ trục x, sau đó cũng là tuyến tính (không theo nghĩa toán học nghiêm ngặt) theo nghĩa là nó không thể ước chừng một cách thỏa đáng các hàm cong như sóng hình sin ( 0 --> 90
) với một lớp ẩn một nút có thể bằng một sigmoid chức năng kích hoạt.
Vậy trực giác đằng sau sự thật rằng Re-Lu được sử dụng trong NN là gì, mang lại hiệu quả thỏa đáng (tôi không hỏi mục đích của Re-lu) mặc dù chúng thuộc loại tuyến tính? Hoặc đôi khi các hàm phi tuyến tính như sigmoid và tanh bị ném vào giữa mạng?
EDIT: Theo nhận xét của @ Eka, Re-Lu có được khả năng của mình từ hoạt động không liên tục trong các lớp sâu của Mạng lưới thần kinh. Điều này có nghĩa là Re-Lu là tốt miễn là chúng ta sử dụng nó trong Deep NN và không phải là NN nông?
max(0,x)
hoạt động trong các lớp sâu của mạng lưới thần kinh. Có một nghiên cứu openai trong đó họ tính toán các hàm phi tuyến tính bằng cách sử dụng mạng tuyến tính sâu ở đây là liên kết blog.openai.com/nonlinear-computing-in-linear-networks