Một chìa khóa cho câu trả lời là trong câu hỏi, "Ngay cả đối với một lớp đối lưu cụ thể." Việc xây dựng các mạng chập sâu không phải là một ý tưởng tốt với giả định rằng một kích thước hạt nhân duy nhất được áp dụng một cách hợp lý nhất cho tất cả các lớp. Khi xem xét các cấu hình đã được chứng minh là thành công trong các ấn phẩm, rõ ràng là các cấu hình thay đổi qua các lớp của chúng thường được tìm thấy là tối ưu.
Chìa khóa khác là để hiểu rằng hai lớp nhân 11x11 có phạm vi 21x21 và mười lớp nhân 5x5 có phạm vi tiếp cận 41x41. Một ánh xạ từ một mức độ trừu tượng đến nhu cầu tiếp theo không cần phải được hoàn thành trong một lớp.
Tổng quát về kích thước hạt nhân tồn tại, nhưng chúng là các chức năng của các đặc điểm đầu vào điển hình, đầu ra mong muốn của mạng, tài nguyên tính toán có sẵn, độ phân giải, kích thước của tập dữ liệu và cho dù chúng là hình ảnh hay phim.
Về đặc điểm đầu vào, hãy xem xét trường hợp này: Hình ảnh được chụp với độ sâu trường ảnh lớn trong điều kiện ánh sáng kém, chẳng hạn như trong các tình huống bảo mật, do đó khẩu độ của ống kính mở rộng, khiến các vật thể ở một khoảng cách xa tập trung, hoặc có thể có chuyển động mờ.
Trong điều kiện như vậy, một hạt nhân 3x3 sẽ không phát hiện ra nhiều cạnh. Nếu cạnh có thể kéo dài năm pixel, sự lựa chọn tồn tại là có bao nhiêu lớp dành riêng cho việc phát hiện nó. Yếu tố nào ảnh hưởng đến sự lựa chọn đó dựa trên những đặc điểm khác tồn tại trong dữ liệu đầu vào.
Hy vọng rằng khi phần cứng tăng tốc phát triển (trong các chip VLSI dành riêng cho mục đích này) thì các ràng buộc tài nguyên máy tính sẽ giảm mức độ ưu tiên như là một yếu tố trong lựa chọn kích thước hạt nhân. Hiện tại, thời gian tính toán là rất quan trọng và buộc quyết định về cách cân bằng số lượng lớp và kích thước lớp chủ yếu là vấn đề chi phí.
Câu hỏi này đặt ra một câu hỏi khác. Một người học máy giám sát có thể học cách tự động cân bằng cấu hình của các mạng chập sâu không? Sau đó, nó có thể được thực thi lại bất cứ khi nào tài nguyên tính toán bổ sung được cung cấp. Sẽ rất ngạc nhiên nếu có ít nhất một tá phòng thí nghiệm hoạt động chính xác với khả năng này.