Gần đây tôi đã đọc bình luận của Yan LeCun về các kết quả 1x1 :
Trong Convolutional Nets, không có thứ gọi là "các lớp được kết nối đầy đủ". Chỉ có các lớp chập với các hạt tích chập 1x1 và một bảng kết nối đầy đủ.
Một thực tế quá hiếm khi hiểu rằng ConvNets không cần phải có đầu vào có kích thước cố định. Bạn có thể huấn luyện chúng trên các đầu vào xảy ra để tạo ra một vectơ đầu ra duy nhất (không có phạm vi không gian), sau đó áp dụng chúng cho các hình ảnh lớn hơn. Thay vì một vectơ đầu ra duy nhất, sau đó bạn có được một bản đồ không gian của các vectơ đầu ra. Mỗi vector nhìn thấy các cửa sổ đầu vào tại các vị trí khác nhau trên đầu vào. Trong kịch bản đó, "các lớp được kết nối đầy đủ" thực sự hoạt động như các kết cấu 1x1.
Tôi muốn xem một ví dụ đơn giản cho việc này.
Thí dụ
Giả sử bạn có một mạng kết nối đầy đủ. Nó chỉ có một lớp đầu vào và một lớp đầu ra. Lớp đầu vào có 3 nút, lớp đầu ra có 2 nút. Mạng lưới này có thông số. Để làm cho nó cụ thể hơn nữa, giả sử bạn có chức năng kích hoạt ReLU trong lớp đầu ra và ma trận trọng số
Vậy mạng là với .
Làm thế nào lớp chập phải trông giống như vậy? LeCun có nghĩa là gì với "bảng kết nối đầy đủ"?
Tôi đoán để có được một CNN tương đương, nó sẽ phải có cùng số lượng tham số. MLP từ trên cao có thông số.