Theo như tôi hiểu thì vấn đề là như sau: Trong nhận dạng hình ảnh, các đầu vào vào mạng của bạn có thể là các pixel (thang độ xám hoặc chỉ 1 và 0 cho màu đen và trắng). Nếu bạn muốn, ví dụ nhận ra các số viết tay, rất khó để chỉ làm việc với các giá trị như vậy vì bạn không bao giờ biết chính xác số đó (tức là các giá trị đen) sẽ ở đâu.
Là pixel 140 màu đen hay 142 màu đen? Trong cả hai trường hợp, nó cũng có thể là ba. Trong ví dụ về tuổi / cân nặng, các đầu vào này được xác định rõ. Tính năng 2 là trọng lượng. Đặc điểm 3 là tuổi tác. Những "kích thước" không nên "nhảy" trong tập dữ liệu của bạn.
Vì vậy: Trong hình ảnh của bạn, đào tạo "bộ ba" hoặc "ô tô" hoặc "nhà" phải được nhận dạng độc lập với vị trí của chúng trong ảnh, tức là các giá trị pixel, tức là vectơ tính năng / đầu vào, tức là kích thước trái ngược với xác định rõ ràng đầu vào như dữ liệu bệnh nhân.
Làm thế nào để bạn giải quyết điều này trong nhận dạng hình ảnh? Bạn sử dụng các thủ thuật bổ sung, ví dụ tích chập.