Có bất kỳ thuật toán phân loại hình ảnh không phải là mạng thần kinh?


8

Phân loại hình ảnh là nhiệm vụ gán một trong nhãn đã biết trước đó cho một hình ảnh nhất định. Ví dụ: bạn biết rằng bạn sẽ được cung cấp một vài bức ảnh và mỗi hình ảnh duy nhất có chính xác một trong số { c a t , d o g , c a r , s t o n e } trong đó. Các thuật toán nên nói những gì hình ảnh cho thấy.n{cat,dog,car,stone}

Bộ dữ liệu điểm chuẩn để phân loại hình ảnh là ImageNet ; đặc biệt là thách thức nhận dạng hình ảnh quy mô lớn của bạn (LSVRC) . Nó có chính xác 1000 lớp và một lượng dữ liệu đào tạo khổng lồ (tôi nghĩ rằng có một phiên bản được lấy mẫu xuống với hình ảnh khoảng 250px x 250px, nhưng nhiều hình ảnh dường như là từ Flicker).

Thách thức này thường được giải quyết với CNN (hoặc các mạng thần kinh khác).

Có bài báo nào thử cách tiếp cận không sử dụng mạng thần kinh trong LSVRC không?

Để làm rõ câu hỏi: Tất nhiên, có các thuật toán phân loại khác như hàng xóm gần nhất hoặc SVM. Tuy nhiên, tôi nghi ngờ họ làm việc ở tất cả các lớp / nhiều dữ liệu đó. Ít nhất là đối với -NN Tôi chắc chắn rằng dự đoán sẽ cực kỳ chậm; đối với các SVM tôi đoán cả sự phù hợp và dự đoán sẽ chậm hơn nhiều (?).kkk


Bạn không nên "đoán" tốc độ đào tạo và dự đoán của một thuật toán. bạn nên tự mình chuẩn để xem việc đào tạo nhanh như thế nào trên tập dữ liệu của riêng bạn. Khi bạn xây dựng mô hình (với các vấn đề như giải quyết quá mức), dự đoán là một bước khác.
Manu H

@ManuH Tôi biết rằng để thực hiện tôi đã sử dụng nó quá chậm đối với kNN. Nhưng tôi chỉ có thể đoán rằng đây là một vấn đề nội tại của thuật toán, không thể giải quyết được trong miền vấn đề này (ví dụ: Giảm kích thước nặng). Đây là lý do tại sao tôi yêu cầu giấy tờ: Tôi muốn biết những gì người khác đã cố gắng.
Martin Thoma

Câu trả lời:


4

Một phần của vấn đề khi trả lời câu hỏi này là thực sự có hai câu hỏi. Thứ nhất:

Có bất kỳ thuật toán phân loại hình ảnh không phải là mạng thần kinh?

Vâng, rất nhiều. Nhưng bây giờ câu hỏi thực sự:

Có bài báo nào thử cách tiếp cận không sử dụng mạng thần kinh trong LSVRC không?

Trong câu hỏi của bạn, bạn loại trừ các phương pháp như kNN và SVM vì tốc độ. Bag of Words là một phương pháp được sử dụng để giải quyết vấn đề này. MATLAB có một minh chứng tốt ( http://www.mathworks.com/help/vision/examples/image-c Ab- classifying-USE-bag-of-features.html ). Nhưng BoW kết hợp phân cụm k-nghĩa, do đó có thể không phù hợp với nhu cầu của bạn.

Có một số phương pháp phân loại hình ảnh thú vị khác như phân tích kết cấu. TA đang được nghiên cứu như một cách để phân loại bệnh ác tính của bệnh trong các hình ảnh y tế (như khối u). Đây là một bài viết thường được tham khảo: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2701316/

Dưới đây là tổng quan về phân loại hình ảnh: http://www.tandfonline.com/doi/full/10.1080/01431160600746456


1

Bạn có thể sử dụng bất kỳ thuật toán nào có thể xử lý tính chiều của dữ liệu của mình, bao gồm SVM và K Hàng xóm gần nhất. Hiệu suất của các thuật toán được triển khai tốt nhất gần như giống nhau, chấp nhận cho CNN. Lý do mà CNN được sử dụng là bởi vì hiện tại nó là nhà lãnh đạo liên quan đến độ chính xác và đã được vài năm.


Về cơ bản bạn đang lặp lại những gì tôi đã viết trong câu hỏi của tôi; đây không phải là câu trả lời cho câu hỏi của tôi
Martin Thoma

Đây là một bài báo như vậy sử dụng một biến thể của SVM. robotics.stanford.edu/~koller/Papers/Gao+Koller:ICCV11.pdf
John Yetter

0

Có nhiều thuật toán có thể được sử dụng để thực hiện phân loại (nhiều đến mức khó có thể đề cập đến tất cả chúng) Tôi khuyên bạn nên xem qua http://dlib.net/ml_guide.svg này

Đưa ra quyết định sử dụng thuật toán nào là một chức năng của vấn đề bạn đang giải quyết, chủ yếu là: 1. Số lượng lớp 2. Số lượng mẫu 3. Các biến thể trong các lớp và sự tương đồng giữa các lớp 4. Mất cân bằng dữ liệu 5. Kích thước tính năng của bạn Và nhiều thông số khác

Nói chung, CNN rất phổ biến vì hai lý do: Chúng có thể dẫn đến hiệu suất cao trong các vấn đề rất thách thức và chúng là giải pháp chung trong bối cảnh bạn cần hiểu kiến ​​trúc của chúng về các chiến lược và thủ thuật để chỉ thực hiện đào tạo, sau đó bạn không cần thay đổi bất cứ điều gì, không có tham số để chơi với.


Xin vui lòng đọc câu hỏi in đậm trong văn bản tôi đã viết.
Martin Thoma
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.