Khi khởi tạo trọng lượng kết nối trong mạng nơ ron phản hồi, điều quan trọng là khởi tạo chúng ngẫu nhiên để tránh mọi đối xứng mà thuật toán học sẽ không thể phá vỡ.
Khuyến nghị mà tôi đã thấy ở nhiều nơi (ví dụ: trong hướng dẫn MNIST của TensorFlow ) là sử dụng phân phối chuẩn bị cắt ngắn bằng cách sử dụng độ lệch chuẩn của , trong đó là số lượng đầu vào cho cho lớp tế bào thần kinh.
Tôi tin rằng công thức độ lệch chuẩn đảm bảo rằng các gradient được sao lưu không hòa tan hoặc khuếch đại quá nhanh. Nhưng tôi không biết tại sao chúng ta lại sử dụng phân phối bình thường bị cắt ngắn chứ không phải phân phối bình thường. Có phải để tránh trọng lượng ngoại lệ hiếm?