Bài viết: Sự khác biệt giữa Chuẩn hóa lớp, Chuẩn hóa hàng loạt lặp lại (2016) và RNN bình thường hóa hàng loạt (2015) là gì?


30

Vì vậy, gần đây có một bài viết Bình thường hóa lớp . Ngoài ra còn có một triển khai của nó trên Keras.

Nhưng tôi nhớ có những bài báo có tiêu đề Tái định kỳ hàng loạt (Cooijmans, 2016) và Mạng lưới thần kinh tái phát bình thường hàng loạt (Laurent, 2015). Sự khác biệt giữa ba là gì?

Có phần Công việc liên quan này tôi không hiểu:

Chuẩn hóa hàng loạt trước đây đã được mở rộng cho các mạng thần kinh tái phát [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. Công việc trước đây [Cooijmans et al., 2016] cho thấy hiệu suất tốt nhất của chuẩn hóa lô lặp lại có được bằng cách giữ số liệu thống kê chuẩn hóa độc lập cho mỗi bước thời gian. Các tác giả cho thấy rằng việc khởi tạo tham số khuếch đại trong lớp chuẩn hóa hàng loạt lặp lại thành 0,1 tạo ra sự khác biệt đáng kể trong hiệu suất cuối cùng của mô hình. Công việc của chúng tôi cũng liên quan đến bình thường hóa cân nặng [Salimans và Kingma, 2016]. Trong chuẩn hóa trọng lượng, thay vì phương sai, định mức L2 của các trọng số đến được sử dụng để chuẩn hóa các đầu vào tổng hợp thành một nơron. Áp dụng chuẩn hóa trọng lượng hoặc chuẩn hóa hàng loạt bằng cách sử dụng số liệu thống kê dự kiến ​​là tương đương để có một tham số hóa khác nhau của mạng thần kinh chuyển tiếp thức ăn ban đầu. Tái tham số hóa trong mạng ReLU đã được nghiên cứu trong SGD Pathn normalized [Neyshabur et al., 2015]. Tuy nhiên, phương pháp chuẩn hóa lớp được đề xuất của chúng tôi không phải là tham số hóa lại của mạng nơ ron ban đầu. Do đó, mô hình chuẩn hóa lớp có các thuộc tính bất biến khác với các phương thức khác , mà chúng ta sẽ nghiên cứu trong phần sau

Câu trả lời:


25
  • Chuẩn hóa lớp ( Ba 2016 ): Không sử dụng thống kê lô. Bình thường hóa bằng cách sử dụng số liệu thống kê được thu thập từ tất cả các đơn vị trong một lớp của mẫu hiện tại. Không hoạt động tốt với ConvNets.

  • Chuẩn hóa hàng loạt lặp lại (BN) ( Cooijmans, 2016 ; cũng được đề xuất đồng thời bởi Qianli Liao & Tomaso Poggio , nhưng đã thử nghiệm trên ConvNets tái phát, thay vì RNN / LSTM): Tương tự như chuẩn hóa hàng loạt. Sử dụng số liệu thống kê chuẩn hóa khác nhau cho mỗi bước thời gian. Bạn cần lưu trữ một tập hợp độ lệch trung bình và độ lệch chuẩn cho mỗi bước thời gian.

  • Mạng lưới thần kinh tái phát hàng loạt bình thường ( Laurent, 2015 ): chuẩn hóa hàng loạt chỉ được áp dụng giữa trạng thái đầu vào và trạng thái ẩn, nhưng không phải giữa các trạng thái ẩn. tức là bình thường hóa không được áp dụng theo thời gian.

  • Truyền chuẩn hóa ( Liao et al. 2016 ): nó tóm tắt các chuẩn hóa hiện có và khắc phục hầu hết các vấn đề được đề cập ở trên. Nó hoạt động tốt với ConvNets, học tập thường xuyên và học trực tuyến (nghĩa là một lô nhỏ hoặc một mẫu tại một thời điểm):

  • L2L21y=x(w/|w|)xwgy=ygg dường như không cần thiết cho hiệu suất (dù sao lớp hạ lưu cũng có thể học được điều này).

  • L2y=(x/|x|)(w/|w|)xw

Lưu ý rằng cả Cân nặngChuẩn hóa Cosine đã được sử dụng rộng rãi (được gọi là sản phẩm chấm chuẩn hóa) vào những năm 2000 trong một lớp ConvNets gọi là HMAX (Riesenhuber 1999) để mô hình hóa tầm nhìn sinh học. Bạn có thể thấy chúng thú vị.

Tham chiếu: Tham chiếu mô hình HMAX

Tham chiếu: Tham chiếu mô phỏng mạng Cortical

Tham khảo: Chuẩn hóa Cosine: Sử dụng Tương tự Cosine Thay vì Sản phẩm Dot trong Mạng lưới thần kinh , Luo Chunjie, Zhan jianfeng, Wang lei, Yang Qiang

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.