Khi một mạng thần kinh xử lý một lô, tất cả các giá trị kích hoạt cho mỗi lớp được tính cho từng ví dụ (có thể song song trên mỗi ví dụ nếu thư viện và phần cứng hỗ trợ nó). Các giá trị đó được lưu trữ để sử dụng sau này - tức là một giá trị cho mỗi lần kích hoạt cho mỗi ví dụ trong lô, chúng không được tổng hợp theo bất kỳ cách nào
Trong quá trình lan truyền ngược, các giá trị kích hoạt đó được sử dụng như một trong những nguồn số để tính toán độ dốc, cùng với độ dốc được tính cho đến nay hoạt động ngược và trọng số kết nối. Giống như lan truyền về phía trước, lan truyền ngược được áp dụng cho mỗi ví dụ, nó không hoạt động với các giá trị trung bình hoặc tổng. Chỉ khi tất cả các ví dụ đã được xử lý, bạn mới làm việc với các gradient tổng hoặc trung bình cho lô.
Điều này áp dụng như nhau cho các lớp pool tối đa. Không chỉ làm bạn biết những gì đầu ra từ lớp tổng hợp cho mỗi ví dụ trong hàng loạt là gì, nhưng bạn có thể nhìn vào lớp trước và xác định mà đầu vào đến hồ bơi là mức tối đa.
Về mặt toán học và tránh sự cần thiết phải xác định các chỉ số cho các lớp NN và tế bào thần kinh, quy tắc có thể được thể hiện như thế này
Hàm chuyển tiếp làm = m a x ( a , b )
Chúng tôi biết cho một số chức năng đích J (trong mạng thần kinh sẽ là chức năng mất mà chúng tôi muốn giảm thiểu và chúng tôi giả định rằng chúng tôi đã sao lưu vào thời điểm này)∂J∂m
Chúng tôi muốn biết và ∂J∂J∂một∂J∂b
Nếua > b
Tại địa phương , * . Vì vậy∂ Jm = a∂J∂một= ∂J∂m
Tại địa phương , * không phụ thuộc vào . Vậyb ∂ Jmb∂J∂b=0
Do đó nếu , một>b∂J∂J∂a=∂J∂ma>b∂J∂a=0
và nếu , b>một∂J∂J∂b=∂J∂mb>a∂J∂b=0
Khi lan truyền ngược đi qua một lớp gộp tối đa, độ dốc được xử lý trên mỗi ví dụ và chỉ được gán cho đầu vào từ lớp trước đó là mức tối đa. Các đầu vào khác có độ dốc bằng không. Khi điều này được bó, nó không khác nhau, nó chỉ được xử lý cho mỗi ví dụ, có thể song song. Trên toàn bộ một lô, điều này có thể có nghĩa là nhiều hơn một, có thể là tất cả các kích hoạt đầu vào cho nhóm tối đa nhận được một số phần của gradient - mỗi phần từ một tập hợp con khác nhau của các ví dụ trong lô.
* Tại địa phương -> khi chỉ thực hiện các thay đổi vô hạn đối với .m
** Về mặt kỹ thuật, nếu chính xác thì chúng ta có sự gián đoạn, nhưng trong thực tế, chúng ta có thể bỏ qua điều đó mà không gặp vấn đề gì khi đào tạo một mạng lưới thần kinh.a=b