ý kiến của tôi là nhóm tối đa và có nghĩa là không liên quan gì đến loại tính năng, nhưng với tính bất biến dịch.
Hãy tưởng tượng việc học cách nhận ra một 'A' so với 'B' (không có biến thể trong các pixel của A và B). Đầu tiên ở một vị trí cố định trong hình ảnh. Điều này có thể được thực hiện bằng hồi quy logistic (1 nơ ron): các trọng số cuối cùng là một khuôn mẫu của sự khác biệt A - B.
Bây giờ điều gì xảy ra nếu bạn đào tạo để nhận ra trên các vị trí khác nhau trong hình ảnh. Bạn không thể làm điều này với hồi quy logistic, quét qua hình ảnh (nghĩa là xấp xỉ một lớp chập với một bộ lọc) và gắn nhãn tất cả các lần quét của hình ảnh A hoặc B là phù hợp, bởi vì học từ các vị trí khác nhau sẽ cản trở - hiệu quả là bạn cố gắng học trung bình của AB là A / B được truyền qua bộ lọc của bạn - nhưng đây chỉ là một vệt mờ.
với việc học tập tối đa chỉ được thực hiện trên vị trí kích hoạt tối đa (hy vọng tập trung vào chữ cái). Tôi không chắc lắm về việc gộp chung - tôi sẽ tưởng tượng rằng việc học nhiều hơn (tức là điều chỉnh trọng lượng) được thực hiện tại vị trí kích hoạt tối đa và điều đó tránh làm mờ) ...
Tôi khuyến khích bạn chỉ nên thực hiện một mạng đơn giản như vậy với 2 lớp và 1 bộ lọc cho lớp chập, sau đó gộp tối đa / trung bình và 1 nút đầu ra và kiểm tra trọng số / hiệu suất.