1) C1 trong lớp 1 có 6 bản đồ đặc trưng, điều đó có nghĩa là có sáu hạt tích chập? Mỗi hạt nhân chập được sử dụng để tạo bản đồ tính năng dựa trên đầu vào.
Có 6 hạt tích chập và mỗi hạt được sử dụng để tạo bản đồ tính năng dựa trên đầu vào. Một cách khác để nói điều này là có 6 bộ lọc hoặc bộ trọng lượng 3D mà tôi sẽ chỉ gọi là trọng số. Những gì hình ảnh này không thể hiện, có lẽ nó nên, để làm cho nó rõ ràng hơn là hình ảnh thông thường có 3 kênh, nói màu đỏ, xanh lá cây và xanh dương. Vì vậy, các trọng số ánh xạ bạn từ đầu vào đến C1 có hình dạng / kích thước 3x5x5 không chỉ 5x5. Các trọng số 3 chiều hoặc kernel tương tự được áp dụng trên toàn bộ hình ảnh 3x32x32 để tạo bản đồ tính năng 2 chiều trong C1. Có 6 hạt nhân (mỗi 3x5x5) trong ví dụ này để tạo ra 6 bản đồ đặc trưng (mỗi 28x28 kể từ sải chân là 1 và đệm là 0) trong ví dụ này, mỗi hạt là kết quả của việc áp dụng hạt nhân 3x5x5 trên đầu vào.
2) S1 ở lớp 1 có 6 bản đồ đặc trưng, C2 ở lớp 2 có 16 bản đồ tính năng. Quá trình trông như thế nào để có được 16 bản đồ tính năng này dựa trên 6 bản đồ tính năng trong S1?
Bây giờ làm điều tương tự như chúng ta đã làm trong lớp một, nhưng thực hiện nó cho lớp 2, ngoại trừ lần này số lượng kênh không phải là 3 (RGB) mà là 6, sáu cho số lượng bản đồ / bộ lọc tính năng trong S1. Hiện tại có 16 hạt nhân duy nhất có hình dạng / kích thước 6x5x5. mỗi hạt nhân lớp 2 được áp dụng trên tất cả S1 để tạo bản đồ tính năng 2D trong C2. Điều này được thực hiện 16 lần cho mỗi hạt nhân duy nhất trong lớp 2, tất cả 16, để tạo 16 bản đồ tính năng trong lớp 2 (mỗi 10 x10 kể từ sải chân là 1 và phần đệm là 0)
nguồn: http://cs231n.github.io/convolutional-networks/