Câu trả lời:
Ưu điểm của lớp chập là nó có thể tìm hiểu các thuộc tính nhất định mà bạn có thể không nghĩ đến trong khi bạn thêm lớp gộp. Pooling là một hoạt động cố định và tích chập có thể được học. Mặt khác, gộp chung là một hoạt động rẻ hơn tích chập, cả về số lượng tính toán mà bạn cần thực hiện và số lượng tham số mà bạn cần lưu trữ (không có tham số cho lớp gộp).
Có những ví dụ khi một trong số chúng là sự lựa chọn tốt hơn so với cái kia.
Lớp đầu tiên trong ResNet sử dụng tích chập với các bước. Đây là một ví dụ tuyệt vời khi sải chân mang lại cho bạn một lợi thế. Bản thân lớp này làm giảm đáng kể số lượng tính toán phải được thực hiện bởi mạng trong các lớp tiếp theo. Nó nén nhiều tích chập 3x3 (chính xác là 3) vào một tích chập 7x7, để đảm bảo rằng nó có cùng một lĩnh vực tiếp nhận như 3 lớp chập (mặc dù nó kém mạnh hơn về những gì nó có thể học). Đồng thời, lớp này áp dụng stride = 2 làm giảm hình ảnh. Vì lớp đầu tiên này trong ResNet thực hiện tích chập và lấy mẫu xuống cùng một lúc, nên hoạt động trở nên rẻ hơn đáng kể về mặt tính toán. Nếu bạn sử dụng stride = 1 và gộp chung cho downsampling, sau đó bạn sẽ kết thúc với tích chập, tính toán gấp 4 lần + tính toán thêm cho lớp gộp tiếp theo. Thủ thuật tương tự đã được sử dụng trong SqueezeNet và một số kiến trúc mạng thần kinh khác.
Trong NIPS 2018, có một kiến trúc mới được trình bày có tên là FishNet . Một điều mà họ cố gắng là khắc phục các sự cố với các kết nối còn lại được sử dụng trong ResNet. Trong ResNet, ở một số nơi, họ đặt tích chập 1x1 trong kết nối bỏ qua khi lấy mẫu xuống được áp dụng cho hình ảnh. Lớp chập này làm cho việc truyền gradient khó hơn. Một trong những thay đổi lớn trong bài báo của họ là họ thoát khỏi các kết cấu trong các kết nối còn lại và thay thế chúng bằng cách gộp chung và các bản nâng cấp / nhận dạng / ghép đơn giản. Giải pháp này khắc phục sự cố với lan truyền gradient trong các mạng rất sâu.
Từ bài viết của FishNet (Mục 3.2)
Các lớp trong phần đầu bao gồm ghép, tích chập với ánh xạ định danh và gộp chung. Do đó, vấn đề lan truyền độ dốc từ mạng đường trục trước ở đuôi được giải quyết với FishNet bằng 1) không bao gồm I-conv ở đầu; và 2) sử dụng nối ở thân và đầu.
Về bản chất, gộp nhóm tối đa (hoặc bất kỳ loại gộp nào) là một hoạt động cố định và thay thế nó bằng một phép chập có thể được xem như là học hoạt động gộp, làm tăng khả năng biểu cảm của mô hình. Mặt trái là nó cũng làm tăng số lượng tham số có thể huấn luyện, nhưng đây không phải là vấn đề thực sự trong thời đại của chúng ta.
Có một bài viết rất hay của JT Springenberg, trong đó họ thay thế tất cả các hoạt động tổng hợp tối đa trong một mạng bằng các kết luận có hướng. Bài viết cho thấy cách làm như vậy, cải thiện độ chính xác tổng thể của một mô hình có cùng độ sâu và chiều rộng: "khi gộp chung được thay thế bằng một lớp chập bổ sung với hiệu suất sải bước r = 2 ổn định và thậm chí cải thiện trên mô hình cơ sở"
Phấn đấu cho sự đơn giản: Mạng lưới toàn diện
Tôi khuyến khích bạn đọc bài viết, nó không khó đọc.