4
Vấn đề độ dốc biến mất có thể được giải quyết bằng cách nhân đầu vào của tanh với một hệ số không?
Theo hiểu biết của tôi, vấn đề độ dốc biến mất xảy ra khi đào tạo mạng nơ ron khi độ dốc của mỗi chức năng kích hoạt nhỏ hơn 1 sao cho khi hiệu chỉnh được truyền ngược qua nhiều lớp, sản phẩm của các gradient này trở nên …