Chuẩn hóa hàng loạt và ReLUs đều là giải pháp cho vấn đề độ dốc biến mất. Nếu chúng ta đang sử dụng chuẩn hóa hàng loạt, thì chúng ta có nên sử dụng sigmoids không? Hoặc có những tính năng nào của ReLU khiến chúng đáng giá ngay cả khi sử dụng batchnorm?
Tôi cho rằng việc chuẩn hóa được thực hiện trong batchnorm sẽ không kích hoạt âm. Điều đó có nghĩa là batchnorm giải quyết vấn đề "ReLU chết"?
Nhưng bản chất liên tục của tanh và logistic vẫn hấp dẫn. Nếu tôi đang sử dụng batchnorm, tanh có hoạt động tốt hơn ReLU không?
Tôi chắc chắn rằng câu trả lời phụ thuộc . Vì vậy, những gì đã làm việc trong kinh nghiệm của bạn, và các tính năng nổi bật của ứng dụng của bạn là gì?