Đây là một câu hỏi nhỏ về khái niệm đã làm tôi khó chịu trong một thời gian: Làm thế nào chúng ta có thể truyền bá lại qua một lớp tổng hợp tối đa trong một mạng lưới thần kinh?
Tôi đã xem qua các lớp tổng hợp tối đa trong khi xem hướng dẫn này cho thư viện nn của Torch 7. Thư viện tóm tắt tính toán độ dốc và chuyển tiếp cho mỗi lớp của một mạng sâu. Tôi không hiểu cách tính toán độ dốc được thực hiện cho lớp gộp tối đa.
Tôi biết rằng nếu bạn có đầu vào đi vào nơ ron của lớp , thì (được định nghĩa là ) được đưa ra bởi:
Vì vậy, một lớp gộp tối đa sẽ nhận được của lớp tiếp theo như bình thường; nhưng vì hàm kích hoạt cho các nơ-ron tổng hợp tối đa sẽ lấy một vectơ các giá trị (trên đó tối đa hóa) làm đầu vào, không phải là một số duy nhất nữa, mà là một vectơ ( sẽ phải được thay thế bằng ). Hơn nữa, , là chức năng tối đa, không khác biệt đối với các đầu vào của nó.
Vì vậy, .... làm thế nào nó nên làm việc chính xác?