Các mạng nơ ron tích chập phổ biến nhất chứa các lớp gộp để giảm kích thước của các tính năng đầu ra. Tại sao tôi không thể đạt được điều tương tự bằng cách đơn giản là tăng bước tiến của lớp chập? Điều gì làm cho lớp tổng hợp cần thiết?
Các mạng nơ ron tích chập phổ biến nhất chứa các lớp gộp để giảm kích thước của các tính năng đầu ra. Tại sao tôi không thể đạt được điều tương tự bằng cách đơn giản là tăng bước tiến của lớp chập? Điều gì làm cho lớp tổng hợp cần thiết?
Câu trả lời:
Bạn thực sự có thể làm điều đó, xem Phấn đấu cho sự đơn giản: Mạng toàn diện . Pooling cung cấp cho bạn một số lượng bất biến dịch, có thể có hoặc không hữu ích. Ngoài ra, gộp là tính toán nhanh hơn so với kết quả. Tuy nhiên, bạn luôn có thể thử thay thế gộp bằng cách tích chập bằng sải chân và xem những gì hoạt động tốt hơn.
Một số tác phẩm hiện tại sử dụng nhóm trung bình ( Mạng dư dư , DenseNets ), một số tác phẩm khác sử dụng tích chập với sải chân ( DelugeNets )
Rõ ràng max pooling giúp vì nó trích xuất các tính năng sắc nét nhất của hình ảnh. Vì vậy, với một hình ảnh, các tính năng sắc nét nhất là đại diện cấp thấp nhất của hình ảnh. https://www.quora.com/What-is-the-benefit-of-USE-alusive-pooling-rather-than-max-pooling
Nhưng theo bài giảng Deep Learning của Andrew Ng, max pooling hoạt động tốt nhưng không ai biết tại sao. Trích dẫn -> "Nhưng tôi phải thừa nhận, tôi nghĩ lý do chính khiến mọi người sử dụng max pooling là vì nó được tìm thấy trong rất nhiều thí nghiệm để hoạt động tốt, ... Tôi không biết ai đó hoàn toàn biết nếu đó là sự thật Lý do."