Vì không có câu trả lời chi tiết và được đánh dấu, tôi sẽ cố gắng hết sức.
Trước tiên chúng ta hãy hiểu động lực cho các lớp như vậy đến từ đâu: ví dụ: bộ tự động tích chập. Bạn có thể sử dụng bộ mã hóa tự động tích chập để trích xuất các hình ảnh trong khi đào tạo bộ mã hóa tự động để tái tạo lại hình ảnh gốc. (Đây là một phương pháp không giám sát.)
Bộ mã hóa tự động như vậy có hai phần: Bộ mã hóa trích xuất các tính năng từ hình ảnh và bộ giải mã tái tạo lại hình ảnh gốc từ các tính năng này. Kiến trúc của bộ mã hóa và bộ giải mã thường được nhân đôi.
Trong một bộ mã hóa tự động chập, bộ mã hóa hoạt động với các lớp chập và gộp. Tôi giả sử rằng bạn biết làm thế nào những công việc này. Bộ giải mã cố gắng phản chiếu bộ mã hóa nhưng thay vì "làm cho mọi thứ nhỏ hơn", nó có mục tiêu là "làm cho mọi thứ lớn hơn" để phù hợp với kích thước ban đầu của hình ảnh.
Đối lập với các lớp chập là các lớp chập chuyển vị (còn được gọi là giải mã , nhưng nói một cách chính xác về mặt toán học thì đây là một cái gì đó khác biệt). Chúng hoạt động với các bộ lọc, hạt nhân, sải bước giống như các lớp chập nhưng thay vì ánh xạ từ các pixel đầu vào 3x3 sang 1 đầu ra, chúng ánh xạ từ 1 pixel đầu vào thành 3x3 pixel. Tất nhiên, backpropagation cũng hoạt động một chút khác nhau.
Đối diện của các lớp gộp là các lớp upampling mà ở dạng tinh khiết nhất của chúng chỉ thay đổi kích thước hình ảnh (hoặc sao chép pixel nhiều lần nếu cần). Một kỹ thuật tiên tiến hơn là unpooling giúp chuyển đổi maxpooling bằng cách nhớ vị trí của cực đại trong các lớp maxpooling và trong các lớp unpooling sao chép giá trị vào chính xác vị trí này. Để trích dẫn từ bài viết này ( https://arxiv.org/pdf/1311.2901v3.pdf ):
Trong mạng lưới, hoạt động gộp tối đa là không thể đảo ngược, tuy nhiên chúng ta có thể có được một nghịch đảo gần đúng bằng cách ghi lại các vị trí của cực đại trong mỗi vùng gộp trong một tập hợp các biến chuyển đổi. Trong deconvnet, hoạt động unpooling sử dụng các công tắc này để đặt các cấu trúc lại từ lớp trên vào các vị trí thích hợp, bảo toàn cấu trúc của kích thích.
Để biết thêm về đầu vào kỹ thuật và bối cảnh, hãy xem phần giải thích thực sự hay, minh họa và chuyên sâu này: http://deeplearning.net/software/theano/tutorial/conv_arithatures.html
Và hãy xem https://www.quora.com/What-is-the-difference-b between-Deconvolution-Upsampling-Unpooling -and -Convolutional-Sparse-Coding