Nói tóm lại, không có gì đặc biệt về số lượng kích thước cho tích chập. Bất kỳ chiều nào của tích chập có thể được xem xét, nếu nó phù hợp với một vấn đề.
Số lượng kích thước là một thuộc tính của vấn đề đang được giải quyết. Ví dụ: 1D cho tín hiệu âm thanh, 2D cho hình ảnh, 3D cho phim. . .
Bỏ qua số lượng kích thước một cách ngắn gọn, những điều sau đây có thể được coi là điểm mạnh của mạng nơ ron tích chập (CNN), so với các mô hình được kết nối đầy đủ, khi xử lý một số loại dữ liệu nhất định:
Việc sử dụng các trọng số được chia sẻ cho từng vị trí mà quá trình tích chập làm giảm đáng kể số lượng tham số cần học, so với cùng một dữ liệu được xử lý thông qua mạng được kết nối đầy đủ.
Trọng lượng được chia sẻ là một hình thức chính quy.
Cấu trúc của một mô hình tích chập đưa ra các giả định mạnh mẽ về các mối quan hệ cục bộ trong dữ liệu, khi mà sự thật làm cho nó phù hợp với vấn đề.
3.1 Các mẫu cục bộ cung cấp dữ liệu dự đoán tốt (và / hoặc có thể được kết hợp một cách hữu ích thành các mẫu dự đoán phức tạp hơn ở các lớp cao hơn)
3.2 Các loại mẫu tìm thấy trong dữ liệu có thể được tìm thấy ở nhiều nơi. Tìm cùng một mẫu trong một tập hợp các điểm dữ liệu khác nhau có ý nghĩa.
Các thuộc tính này của CNN không phụ thuộc vào số lượng kích thước. Các CNN một chiều hoạt động với các mẫu trong một chiều và có xu hướng hữu ích trong phân tích tín hiệu qua các tín hiệu có độ dài cố định. Chúng hoạt động tốt để phân tích tín hiệu âm thanh, ví dụ. Ngoài ra đối với một số xử lý ngôn ngữ tự nhiên - mặc dù các mạng thần kinh tái phát, cho phép độ dài chuỗi khác nhau, có thể phù hợp hơn ở đó, đặc biệt là các mạng có bố trí cổng bộ nhớ như LSTM hoặc GRU. Tuy nhiên, CNN có thể dễ quản lý hơn và bạn có thể chỉ cần đệm đầu vào có độ dài cố định.