Các đặc điểm của hình ảnh giúp chúng có thể phân loại với mạng thần kinh sâu là có rất nhiều tính năng (có thể là hàng triệu nếu không phải là hàng tỷ pixel với RGB, cường độ, v.v.) và nếu bạn có nhãn chính xác, đó không phải là dữ liệu ồn ào. Máy ảnh những ngày này là rất tốt và họ không đo lường bất cứ điều gì. Nhờ có Internet, giờ đây chúng ta có rất nhiều hình ảnh được dán nhãn chính xác. Một mạng sâu có thể biểu thị các chức năng phức tạp tùy ý, đó là một vấn đề với dữ liệu nhiễu vì bạn có thể rất dễ điều chỉnh nhiễu, do đó tại sao nhiều phương pháp học tập có xu hướng xử phạt các mô hình phức tạp. Tuy nhiên, trong trường hợp nhận dạng hình ảnh, chức năng thực sự có vẻ rất phức tạp, chúng tôi không biết hình thức chức năng trông như thế nào và thậm chí chúng tôi không biết các tính năng liên quan trong nhiều trường hợp là gì.
Điều này không có nghĩa là bạn không thể sử dụng các mạng sâu để tìm hiểu các chức năng không liên quan gì đến hình ảnh. Bạn chỉ cần hết sức cẩn thận về những nhược điểm, chủ yếu là nó rất dễ bị quá tải, nhưng cũng tốn kém về mặt tính toán và có thể mất nhiều thời gian để đào tạo (không phải là vấn đề ngày nay với SGD và GPU song song). Nhược điểm khác là bạn có rất ít hoặc không có khả năng diễn giải mô hình, điều này không thực sự quan trọng đối với phân loại hình ảnh. Chúng tôi chỉ đang cố gắng để máy tính nhận ra sự khác biệt giữa một con tinh tinh và một con đười ươi. Sự hiểu biết của con người về công thức không thành vấn đề. Đối với các lĩnh vực khác, đặc biệt là chẩn đoán y tế, nghiên cứu chính sách, v.v., bạn muốn hoặc thậm chí có thể cần sự hiểu biết của con người.