Trong bài viết Chuẩn hóa hàng loạt: Tăng tốc đào tạo mạng sâu b y Giảm sự thay đổi đồng biến nội bộ ( ở đây ) Trước khi giải thích quá trình chuẩn hóa hàng loạt, bài viết cố gắng giải thích các vấn đề liên quan (Tôi không hiểu vấn đề chính xác được giải quyết ở đây là gì) .
đoạn trích từ phần 2, đoạn 2:
Chúng tôi có thể xem xét kích hoạt làm trắng ở mỗi bước đào tạo hoặc tại một số khoảng thời gian, bằng cách sửa đổi trực tiếp mạng hoặc bằng cách thay đổi các tham số của thuật toán tối ưu hóa phụ thuộc vào các giá trị kích hoạt mạng (Wiesler et al., 2014; Raiko et al., 2012 ; Povey và cộng sự, 2014; Desjardins & Kavukcuoglu). Tuy nhiên, nếu các sửa đổi này được xen kẽ với các bước tối ưu hóa, thì bước giảm độ dốc có thể cố gắng cập nhật các tham số theo cách yêu cầu chuẩn hóa phải được cập nhật, làm giảm hiệu ứng của bước gradient. Ví dụ: xem xét một lớp có u đầu vào có thêm độ lệch đã học và bình thường hóa kết quả bằng cách trừ đi giá trị trung bình của kích hoạt được tính trên dữ liệu huấn luyện:trong đó là tập hợp các giá trị của trên tập huấn luyện và .
Nếu một bước giảm độ dốc bỏ qua sự phụ thuộc của E [x] vào b, thì nó sẽ cập nhật , trong đó . Khi đó
.Do đó, sự kết hợp của việc cập nhật lên b và thay đổi chuẩn hóa tiếp theo dẫn đến không có sự thay đổi nào trong đầu ra của lớp và do đó, mất mát. Khi đào tạo tiếp tục, b sẽ tăng trưởng vô thời hạn trong khi tổn thất vẫn cố định. Vấn đề này có thể trở nên tồi tệ hơn nếu việc chuẩn hóa không chỉ các trung tâm mà còn mở rộng quy mô kích hoạt.
đây là sự hiểu biết của tôi về văn học:
Chúng tôi có một lô cỡ N (Một đợt đào tạo)
Để có hai lớp ẩn tùy ý được kết nối với nhau (L1 và L2) được kết nối bởi các tham số và
đầu ra của L1 là x1
(đây là lúc tài liệu ở trên bắt đầu. thứ nguyên của u là MxN) (M là số đơn vị trong L2)
(thứ nguyên b = thứ x = thứ nguyên u = MxN)
Bây giờ trước khi cho x vào L2, chúng ta căn giữa nó bằng cách trừ giá trị trung bình của từ mỗi mục trong ( )
Chúng tôi tính toán tổn thất và sao lưu lại độ dốc và chỉ cập nhật lớp để cung cấp cho nó một bài kiểm tra độ tỉnh táo. Mới =
Chúng tôi chạy lại trên cùng một đợt với cập nhật
lặp lại 3 và 4
(kích thước b, = kích thước x = kích thước u = MxN)
Bây giờ trước khi cho x vào L2, chúng ta căn giữa nó bằng cách trừ giá trị trung bình của từ mỗi mục trong ( ). giống như những gì đã được tính toán trước khi cập nhật b và do đó cập nhật b phải có hiệu lực trong việc đào tạo
Câu hỏi của tôi là với phần này của đoạn trích:
"Nếu bước giảm độ dốc bỏ qua sự phụ thuộc của E [x] vào b, thì nó sẽ cập nhật , trong đó . Sau đó "
Tại sao lại là
" " phụ thuộc vào những gì đến trước nó? Thậm chí điểm của bit đó là gì? Cũng xin lưu ý cách sử dụng từ "Then" (được in đậm) ngụ ý tuyên bố nhất thiết phải rút ra quan hệ nhân quả từ những gì đến trước