Tôi biết rằng Mạng dư (ResNet) khiến cho việc khởi tạo bình thường trở nên phổ biến. Trong ResNet, He khởi tạo bình thường được sử dụng , trong khi lớp đầu tiên sử dụng khởi tạo thống nhất He.
Tôi đã xem qua giấy ResNet và giấy "Đi sâu vào chỉnh lưu" (Giấy khởi tạo của anh ấy), nhưng tôi không tìm thấy bất kỳ đề cập nào về init bình thường so với init đồng phục.
Cũng thế:
Chuẩn hóa hàng loạt cho phép chúng tôi sử dụng tỷ lệ học tập cao hơn nhiều và ít cẩn thận hơn về khởi tạo.
Trong bản tóm tắt của Batch Normalization, người ta nói rằng Batch Normalization cho phép chúng ta ít cẩn thận hơn về việc khởi tạo.
Bản thân ResNet vẫn quan tâm khi nào nên sử dụng init bình thường so với init đồng phục (thay vì chỉ đi với init đồng phục).
Vì thế:
- Khi nào nên sử dụng (He hoặc Glorot) khởi tạo phân phối bình thường so với khởi tạo thống nhất?
- Hiệu ứng khởi tạo phân phối bình thường với Batch Chuẩn hóa là gì?
Ghi chú sang một bên:
- Nó có vần để sử dụng init bình thường với Batch bình thường hóa, nhưng tôi không tìm thấy bất kỳ bài báo nào ủng hộ sự thật này.
- Tôi biết rằng ResNet sử dụng He init trên Glorot init vì He init hoạt động tốt hơn trên mạng sâu.
- Tôi đã hiểu về Glorot init vs He init .
- Câu hỏi của tôi là về Bình thường vs Đồng phục init.