Giả sử rằng tôi có một lớp đối lưu tạo ra một tenxơ hình trong đó:(N,F,H,W)
- N là cỡ lô
- F là số lượng bộ lọc tích chập
- H,W là kích thước không gian
Giả sử đầu ra này được đưa vào một lớp đối lưu với các bộ lọc 1x1, không đệm và sải chân 1. Sau đó, đầu ra của lớp đối lưu 1x1 này sẽ có hình dạng .F1(N,F1,H,W)
Vì vậy, các bộ lọc đối chiếu 1x1 có thể được sử dụng để thay đổi kích thước trong không gian bộ lọc. Nếu thì chúng ta đang tăng chiều, nếu chúng ta đang giảm chiều, trong chiều của bộ lọc.F1>FF1<F
Thật vậy, trong bài viết Google Inception , Deep Deep with Convolutions , họ tuyên bố (in đậm là của tôi, không phải của các tác giả gốc):
Một vấn đề lớn với các mô-đun trên, ít nhất là ở dạng ngây thơ này, đó là ngay cả một số lượng nhỏ các kết cấu 5x5 có thể rất đắt ở trên một lớp chập với một số lượng lớn bộ lọc.
Điều này dẫn đến ý tưởng thứ hai về kiến trúc được đề xuất: áp dụng một cách thận trọng việc giảm kích thước và dự đoán bất cứ nơi nào các yêu cầu tính toán sẽ tăng quá nhiều nếu không. Điều này dựa trên sự thành công của các nhúng: ngay cả các nhúng nhúng có chiều thấp có thể chứa nhiều thông tin về một bản vá hình ảnh tương đối lớn ... các kết cấu 1x1 được sử dụng để tính toán giảm trước các kết cấu 3x3 và 5x5 đắt tiền. Bên cạnh việc được sử dụng như là sự cắt giảm, chúng còn bao gồm việc sử dụng kích hoạt tuyến tính được chỉnh lưu khiến chúng có mục đích kép.
Vì vậy, trong kiến trúc Inception, chúng tôi sử dụng các bộ lọc tích chập 1x1 để giảm tính chiều trong kích thước bộ lọc. Như tôi đã giải thích ở trên, các lớp đối lưu 1x1 này có thể được sử dụng chung để thay đổi kích thước không gian của bộ lọc (tăng hoặc giảm) và trong kiến trúc Inception, chúng ta thấy các bộ lọc 1x1 này có hiệu quả như thế nào để giảm kích thước, rõ ràng trong không gian kích thước bộ lọc , không phải là không gian kích thước không gian.
Có lẽ có những cách hiểu khác về bộ lọc đối lưu 1x1, nhưng tôi thích cách giải thích này, đặc biệt là trong bối cảnh kiến trúc Google Inception.