Có một số biến thể về cách bình thường hóa hình ảnh nhưng dường như hầu hết đều sử dụng hai phương pháp sau:
- Trừ giá trị trung bình trên mỗi kênh được tính trên tất cả các hình ảnh (ví dụ: VGG_ILSVRC_16_layers )
- Trừ theo pixel / kênh được tính trên tất cả các hình ảnh (ví dụ: CNN_S , cũng xem mạng tham chiếu của Caffe )
Cách tiếp cận tự nhiên trong tâm trí tôi để bình thường hóa từng hình ảnh. Một hình ảnh được chụp dưới ánh sáng ban ngày sẽ khiến nhiều nơ-ron phát sáng hơn so với hình ảnh vào ban đêm và trong khi nó có thể cho chúng ta biết thời gian chúng ta thường quan tâm đến các tính năng thú vị hơn ở các cạnh, v.v.
Pierre Sermanet đề cập đến trong 3.3.3 rằng chuẩn hóa độ tương phản cục bộ sẽ dựa trên mỗi hình ảnh nhưng tôi không bắt gặp điều này trong bất kỳ ví dụ / hướng dẫn nào tôi từng thấy. Tôi cũng đã thấy một câu hỏi Quora thú vị và bài đăng của Xiu-Shen Wei nhưng họ dường như không ủng hộ hai cách tiếp cận trên.
Chính xác thì tôi đang thiếu gì? Đây có phải là một vấn đề bình thường hóa màu sắc hay có một bài báo thực sự giải thích tại sao rất nhiều người sử dụng phương pháp này?