Tôi hiện đang chuẩn bị cho một kỳ thi trên mạng lưới thần kinh. Trong một số giao thức từ các kỳ thi trước đây, tôi đọc được rằng các chức năng kích hoạt của các nơ-ron (trong các tri giác đa lớp) phải đơn điệu.
Tôi hiểu rằng các hàm kích hoạt phải khác biệt, có đạo hàm không bằng 0 trên hầu hết các điểm và không tuyến tính. Tôi không hiểu tại sao đơn điệu là quan trọng / hữu ích.
Tôi biết các chức năng kích hoạt sau đây và chúng là đơn điệu:
- ReLU
- Sigmoid
- Tanh
- Softmax: Tôi không chắc định nghĩa về tính đơn điệu có áp dụng cho các hàm với
- Softplus
- (Danh tính)
Tuy nhiên, tôi vẫn không thể thấy bất kỳ lý do nào tại sao ví dụ .
Tại sao các chức năng kích hoạt phải đơn điệu?
(Câu hỏi bên liên quan: có bất kỳ lý do nào khiến hàm logarit / hàm mũ không được sử dụng làm hàm kích hoạt không?)