Vì vậy, gần đây có một bài viết Bình thường hóa lớp . Ngoài ra còn có một triển khai của nó trên Keras.
Nhưng tôi nhớ có những bài báo có tiêu đề Tái định kỳ hàng loạt (Cooijmans, 2016) và Mạng lưới thần kinh tái phát bình thường hàng loạt (Laurent, 2015). Sự khác biệt giữa ba là gì?
Có phần Công việc liên quan này tôi không hiểu:
Chuẩn hóa hàng loạt trước đây đã được mở rộng cho các mạng thần kinh tái phát [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016]. Công việc trước đây [Cooijmans et al., 2016] cho thấy hiệu suất tốt nhất của chuẩn hóa lô lặp lại có được bằng cách giữ số liệu thống kê chuẩn hóa độc lập cho mỗi bước thời gian. Các tác giả cho thấy rằng việc khởi tạo tham số khuếch đại trong lớp chuẩn hóa hàng loạt lặp lại thành 0,1 tạo ra sự khác biệt đáng kể trong hiệu suất cuối cùng của mô hình. Công việc của chúng tôi cũng liên quan đến bình thường hóa cân nặng [Salimans và Kingma, 2016]. Trong chuẩn hóa trọng lượng, thay vì phương sai, định mức L2 của các trọng số đến được sử dụng để chuẩn hóa các đầu vào tổng hợp thành một nơron. Áp dụng chuẩn hóa trọng lượng hoặc chuẩn hóa hàng loạt bằng cách sử dụng số liệu thống kê dự kiến là tương đương để có một tham số hóa khác nhau của mạng thần kinh chuyển tiếp thức ăn ban đầu. Tái tham số hóa trong mạng ReLU đã được nghiên cứu trong SGD Pathn normalized [Neyshabur et al., 2015]. Tuy nhiên, phương pháp chuẩn hóa lớp được đề xuất của chúng tôi không phải là tham số hóa lại của mạng nơ ron ban đầu. Do đó, mô hình chuẩn hóa lớp có các thuộc tính bất biến khác với các phương thức khác , mà chúng ta sẽ nghiên cứu trong phần sau