Có, đạo hàm bậc hai của ReLU là 0. Về mặt kỹ thuật, cả hay đều được định nghĩa tại , nhưng chúng tôi bỏ qua điều đó - thực tế là chính xác là hiếm và không đặc biệt có ý nghĩa, vì vậy đây không phải là vấn đề. Phương pháp của Newton không hoạt động trên hàm truyền ReLU vì nó không có điểm dừng. Nó cũng không hoạt động có ý nghĩa trên hầu hết các chức năng chuyển phổ biến khác - chúng không thể được tối thiểu hóa hoặc tối đa hóa cho các đầu vào hữu hạn.dydxd2ydx2x=0x=0
Khi bạn kết hợp nhiều hàm ReLU với các lớp nhân ma trận trong một cấu trúc như mạng thần kinh và muốn giảm thiểu một hàm mục tiêu, hình ảnh sẽ phức tạp hơn. Sự kết hợp này không có điểm dừng. Ngay cả một nơron ReLU đơn lẻ và một mục tiêu lỗi bình phương trung bình sẽ có hành vi đủ khác nhau sao cho đạo hàm bậc hai của trọng lượng đơn sẽ khác nhau và không được bảo đảm là 0.
Sự phi tuyến khi nhiều lớp kết hợp là những gì tạo ra một bề mặt tối ưu hóa thú vị hơn. Điều này cũng có nghĩa là khó tính toán các đạo hàm riêng bậc hai (hay ma trận Hessian ) khó hơn, nó không chỉ là vấn đề lấy đạo hàm bậc hai của các hàm truyền.
Thực tế là cho hàm truyền sẽ làm cho một số thuật ngữ bằng 0 trong ma trận (đối với hiệu ứng bậc hai từ cùng kích hoạt nơ-ron), nhưng phần lớn các thuật ngữ trong Hessian là có dạng trong đó E là mục tiêu và , là các tham số khác nhau của mạng thần kinh. Một ma trận Hessian được nhận biết đầy đủ sẽ có thuật ngữ trong đó là số lượng tham số - với các mạng thần kinh lớn có tới 1 triệu tham số, ngay cả với quy trình tính toán đơn giản và nhiều thuật ngữ là 0 (ví dụ: 2 trọng số trong cùng một lớp) có thể không khả thi để tính toán.d2ydx2=0∂2E∂xi∂xjxixjN2N
Có các kỹ thuật để ước tính tác dụng của các dẫn xuất bậc hai được sử dụng trong một số trình tối ưu hóa mạng thần kinh. RMSProp có thể được xem như là ước tính đại khái cho các hiệu ứng bậc hai, chẳng hạn. Các trình tối ưu hóa "không có Hessian" tính toán rõ ràng hơn tác động của ma trận này.