Phân loại hình ảnh là nhiệm vụ gán một trong nhãn đã biết trước đó cho một hình ảnh nhất định. Ví dụ: bạn biết rằng bạn sẽ được cung cấp một vài bức ảnh và mỗi hình ảnh duy nhất có chính xác một trong số { c a t , d o g , c a r , s t o n e } trong đó. Các thuật toán nên nói những gì hình ảnh cho thấy.
Bộ dữ liệu điểm chuẩn để phân loại hình ảnh là ImageNet ; đặc biệt là thách thức nhận dạng hình ảnh quy mô lớn của bạn (LSVRC) . Nó có chính xác 1000 lớp và một lượng dữ liệu đào tạo khổng lồ (tôi nghĩ rằng có một phiên bản được lấy mẫu xuống với hình ảnh khoảng 250px x 250px, nhưng nhiều hình ảnh dường như là từ Flicker).
Thách thức này thường được giải quyết với CNN (hoặc các mạng thần kinh khác).
Có bài báo nào thử cách tiếp cận không sử dụng mạng thần kinh trong LSVRC không?
Để làm rõ câu hỏi: Tất nhiên, có các thuật toán phân loại khác như hàng xóm gần nhất hoặc SVM. Tuy nhiên, tôi nghi ngờ họ làm việc ở tất cả các lớp / nhiều dữ liệu đó. Ít nhất là đối với -NN Tôi chắc chắn rằng dự đoán sẽ cực kỳ chậm; đối với các SVM tôi đoán cả sự phù hợp và dự đoán sẽ chậm hơn nhiều (?).k