Một CNN có thể là một lựa chọn tốt cho nhiệm vụ này nếu bạn mong đợi sự thay đổi trong tỷ lệ hình ảnh gốc, ánh sáng xoay v.v. và cũng có nhiều dữ liệu đào tạo.
Kiến trúc CNN thông thường là có các lớp chập gần với đầu vào và các lớp được kết nối đầy đủ trong đầu ra. Các lớp được kết nối đầy đủ có thể có đầu ra được sắp xếp cho các nhiệm vụ phân loại hoặc hồi quy khác nhau khi bạn thấy phù hợp. Dự đoán các giá trị của các tham số mô tả hình ảnh là một nhiệm vụ hồi quy.
Nếu bạn muốn đo kích thước chính xác, bạn có thể cần tránh sử dụng các lớp gộp tối đa. Thật không may, không sử dụng pooling sẽ làm cho mạng của bạn lớn hơn và khó đào tạo hơn - bạn có thể thoát khỏi sự chập chững thay vì nếu đó là một vấn đề đối với bạn.
Nếu hình ảnh đầu vào của bạn rất đơn giản và rõ ràng (vì chúng luôn được tạo bởi máy tính), thì các cách tiếp cận khác có thể đáng tin cậy hơn. Bạn có thể đảo ngược quá trình sản xuất hình ảnh và rút ra các quy tắc đơn giản như xác định đường, góc, vòng tròn và các thành phần hình ảnh dễ lọc khác và thực hiện các phép đo trực tiếp. Cũng có thể có một nền tảng trung gian phức tạp khi trích xuất dữ liệu này dưới dạng các tính năng và sử dụng nó để huấn luyện một NN đơn giản (hoặc mô hình ML khác) sẽ có hiệu suất tốt.