Các từ khóa ở đây là linh mục và quy mô . Ví dụ đơn giản, hãy tưởng tượng bạn đang cố gắng dự đoán tuổi của một người từ một bức ảnh. Với bộ dữ liệu hình ảnh và độ tuổi, bạn có thể đào tạo một mô hình học sâu để đưa ra dự đoán. Điều này là khách quan thực sự không hiệu quả vì 90% hình ảnh là vô dụng, và chỉ có khu vực với người thực sự hữu ích. Đặc biệt, khuôn mặt của người đó, cơ thể của họ và có thể là quần áo của họ.
Mặt khác, thay vào đó, bạn có thể sử dụng mạng phát hiện đối tượng được đào tạo trước để trích xuất các hộp giới hạn cho người đó, cắt hình ảnh và sau đó chuyển qua mạng. Quá trình này sẽ cải thiện đáng kể độ chính xác của mô hình của bạn vì một số lý do:
1) Tất cả các tài nguyên mạng (nghĩa là trọng lượng) có thể tập trung vào nhiệm vụ thực tế của dự đoán tuổi, trái ngược với việc trước tiên phải tìm người trước. Điều này đặc biệt quan trọng vì khuôn mặt của người đó chứa các tính năng hữu ích. Mặt khác, các tính năng tốt hơn mà bạn cần có thể bị mất trong một vài lớp đầu tiên. Về lý thuyết, một mạng đủ lớn có thể giải quyết điều này, nhưng nó sẽ không hiệu quả. Hình ảnh được cắt cũng thường xuyên hơn đáng kể so với hình ảnh gốc. Trong khi hình ảnh gốc có rất nhiều nhiễu, có thể cho rằng sự khác biệt trong hình ảnh bị cắt có tương quan cao hơn nhiều với mục tiêu.
2) Hình ảnh được cắt có thể được chuẩn hóa để có cùng tỷ lệ . Điều này giúp mạng thứ hai xử lý các vấn đề mở rộng, bởi vì trong ảnh gốc, mọi người có thể xảy ra gần hoặc xa. Bình thường hóa tỷ lệ trước làm cho nó để hình ảnh được cắt được đảm bảo có một người trong đó lấp đầy hình ảnh được cắt hoàn toàn (mặc dù được làm mờ nếu chúng ở xa). Để xem làm thế nào điều này có thể giúp chia tỷ lệ, phần thân bị cắt có một nửa chiều rộng và chiều cao của ảnh gốc có ít pixel gấp 4 lần để xử lý và do đó, cùng một mạng được áp dụng cho hình ảnh này sẽ có gấp 4 lần trường tiếp nhận của mạng ban đầu ở mỗi lớp.
Ví dụ, trong cuộc thi kaggle phổi, một chủ đề phổ biến trong các giải pháp hàng đầu là một số loại tiền xử lý trên hình ảnh phổi đã cắt chúng càng nhiều càng tốt và cô lập các thành phần của mỗi phổi. Điều này đặc biệt quan trọng trong hình ảnh 3D vì hiệu ứng là hình khối: bằng cách loại bỏ 20% mỗi chiều, bạn sẽ thoát khỏi gần một nửa pixel!