Không có yêu cầu về kích thước pixel cụ thể để các mạng thần kinh tích chập hoạt động bình thường. Có khả năng các giá trị đã được chọn vì lý do thực tế - chẳng hạn như thỏa hiệp giữa việc sử dụng chi tiết hình ảnh so với số lượng tham số và kích thước tập huấn được yêu cầu.
Ngoài ra, nếu dữ liệu nguồn có một loạt các tỷ lệ khung hình khác nhau, một số chân dung, một số cảnh quan, với đối tượng mục tiêu thường ở trung tâm, thì lấy một hình vuông từ giữa có thể là một sự thỏa hiệp hợp lý.
Khi bạn tăng kích thước hình ảnh đầu vào, bạn cũng sẽ tăng lượng nhiễu và phương sai mà mạng sẽ cần xử lý để xử lý đầu vào đó. Điều đó có thể có nghĩa là nhiều lớp hơn - cả chập và gộp. Điều đó cũng có nghĩa là bạn cần nhiều ví dụ đào tạo hơn và tất nhiên mỗi ví dụ đào tạo sẽ lớn hơn. Cùng với nhau, những thứ này làm tăng các tài nguyên tính toán mà bạn cần để hoàn thành đào tạo. Tuy nhiên, nếu bạn có thể khắc phục yêu cầu này, có thể bạn sẽ kết thúc với một mô hình chính xác hơn, cho bất kỳ tác vụ nào mà các pixel phụ có thể tạo ra sự khác biệt.
Một nguyên tắc khả thi cho việc bạn có muốn độ phân giải cao hơn hay không, nếu, vì mục tiêu của mạng của bạn, một chuyên gia về con người có thể sử dụng độ phân giải bổ sung và thực hiện tốt hơn trong nhiệm vụ. Đây có thể là trường hợp trong các hệ thống hồi quy, trong đó mạng đang lấy một số lượng từ hình ảnh - ví dụ như đối với sinh trắc học nhận dạng khuôn mặt, chẳng hạn như khoảng cách giữa các đặc điểm khuôn mặt. Nó cũng có thể được mong muốn cho các tác vụ xử lý ảnh như mặt nạ tự động - kết quả hiện đại cho các tác vụ này có thể vẫn có độ phân giải thấp hơn so với các ảnh thương mại nơi chúng tôi muốn áp dụng chúng trong thực tế.