Khi nào nên sử dụng (He hoặc Glorot) khởi tạo bình thường trên đồng phục init? Và tác dụng của nó với Batch Normalization là gì?


51

Tôi biết rằng Mạng dư (ResNet) khiến cho việc khởi tạo bình thường trở nên phổ biến. Trong ResNet, He khởi tạo bình thường được sử dụng , trong khi lớp đầu tiên sử dụng khởi tạo thống nhất He.

Tôi đã xem qua giấy ResNet và giấy "Đi sâu vào chỉnh lưu" (Giấy khởi tạo của anh ấy), nhưng tôi không tìm thấy bất kỳ đề cập nào về init bình thường so với init đồng phục.

Cũng thế:

Chuẩn hóa hàng loạt cho phép chúng tôi sử dụng tỷ lệ học tập cao hơn nhiều và ít cẩn thận hơn về khởi tạo.

Trong bản tóm tắt của Batch Normalization, người ta nói rằng Batch Normalization cho phép chúng ta ít cẩn thận hơn về việc khởi tạo.

Bản thân ResNet vẫn quan tâm khi nào nên sử dụng init bình thường so với init đồng phục (thay vì chỉ đi với init đồng phục).

Vì thế:

  • Khi nào nên sử dụng (He hoặc Glorot) khởi tạo phân phối bình thường so với khởi tạo thống nhất?
  • Hiệu ứng khởi tạo phân phối bình thường với Batch Chuẩn hóa là gì?

Ghi chú sang một bên:

  • Nó có vần để sử dụng init bình thường với Batch bình thường hóa, nhưng tôi không tìm thấy bất kỳ bài báo nào ủng hộ sự thật này.
  • Tôi biết rằng ResNet sử dụng He init trên Glorot init vì He init hoạt động tốt hơn trên mạng sâu.
  • Tôi đã hiểu về Glorot init vs He init .
  • Câu hỏi của tôi là về Bình thường vs Đồng phục init.

Câu trả lời:


34

Thực tế, init bình thường và đồng phục dường như không rõ ràng trong thực tế.

Nếu chúng ta chỉ đề cập đến các tài liệu khởi tạo của GlorotHe , cả hai đều sử dụng một phân tích lý thuyết tương tự nhau: họ tìm thấy một phương sai tốt cho phân phối mà từ đó các tham số ban đầu được rút ra. Phương sai này được điều chỉnh phù hợp với chức năng kích hoạt được sử dụng và có nguồn gốc mà không xem xét rõ ràng loại phân phối. Như vậy, kết luận lý thuyết của họ giữ cho bất kỳ loại phân phối của phương sai xác định. Trong thực tế, trong bài báo Glorot, một phân phối đồng đều được sử dụng trong khi trong bài báo He, đó là một phân tích gaussian được chọn. "Giải thích" duy nhất được đưa ra cho lựa chọn này trong bài viết của Ngài là:

Các CNN sâu gần đây hầu hết được khởi tạo bởi các trọng số ngẫu nhiên được rút ra từ các bản phân phối Gaussian

với một tham chiếu đến giấy AlexNet . Nó thực sự đã được phát hành muộn hơn một chút so với khởi tạo của Glorot, tuy nhiên không có sự chính đáng nào trong việc sử dụng phân phối bình thường.

Trên thực tế, trong một cuộc thảo luận về trình theo dõi các vấn đề của Keras , họ cũng có vẻ hơi bối rối và về cơ bản đó chỉ là vấn đề ưu tiên ... (ví dụ, theo giả thuyết, Bengio sẽ thích phân phối đồng đều trong khi Hinton thích những người bình thường hơn ...) Một cuộc thảo luận, có một điểm chuẩn nhỏ so sánh việc khởi tạo Glorot bằng cách sử dụng phân phối đồng nhất và gaussian. Cuối cùng, có vẻ như đồng phục chiến thắng nhưng nó không thực sự rõ ràng.

Trong bài báo ResNet gốc , nó chỉ nói rằng họ đã sử dụng một Gaussian He init cho tất cả các lớp, tôi không thể tìm thấy nơi mà nó được viết rằng họ đã sử dụng đồng phục He init cho lớp đầu tiên. (có lẽ bạn có thể chia sẻ một tài liệu tham khảo về điều này?)

Đối với việc sử dụng init Gaussian với Batch Normalization, với BN, quá trình tối ưu hóa ít nhạy cảm hơn với khởi tạo, do đó, đây chỉ là một quy ước mà tôi muốn nói.


Tôi đọc sai điều đó. Bạn đúng rằng ResNet hoàn toàn không sử dụng bất kỳ khởi tạo thống nhất nào. Tôi đứng sửa.
rilut

0

1
Xin vui lòng, tránh gửi bài chỉ liên kết. Bất kỳ liên kết nào cũng có thể trở nên chết sau một thời gian và người đọc mới sẽ không thể kiểm tra câu trả lời. Bạn có thể đăng một liên kết, nhưng luôn luôn thêm một bản tóm tắt của phần quan trọng nhất là văn bản.
TASos

@Tasos bình luận cũng lưu ý. Có quá nhiều thông tin để tóm tắt và đó là lý do tại sao tôi đã đăng liên kết thay vào đó và tôi nhận thấy quan điểm của bạn về các liên kết bị phá vỡ. Cảm ơn.
rockyne
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.