Các tính năng / thuật toán tốt để nhận dạng mô hình xe hơi trong hình ảnh


9

Tôi có một câu hỏi liên quan đến nhận dạng đối tượng, đặc biệt là nhận dạng mô hình xe hơi! Tôi đang bắt đầu một công việc về việc xác định cùng một mô hình xe hơi trong các hình ảnh khác nhau. Hiện tại tôi nghĩ một trong những thuật toán tốt nhất để nhận dạng đối tượng 3D là SIFT nhưng sau khi chơi một chút với triển khai demo, tôi có cảm giác kỳ lạ thuật toán này có một số vấn đề với các vật kim loại sáng bóng như ô tô, đặc biệt là nếu chúng có màu khác nhau.

Có ai biết một số công việc trong lĩnh vực này nói chung một số thuật toán phù hợp cho nhiệm vụ tìm kiếm cùng một mô hình xe hơi trong các hình ảnh khác nhau?

Cảm ơn trước sự giúp đỡ của bạn!


2
Bạn có thể gửi một số hình ảnh ví dụ?
endolith

Chắc chắn rồi. Hình ảnh để tạo mô hình mô hình xe hơi ;-) có thể giống như: s5 coupe training 1 hoặc like s5 coupe training 2 nhưng cũng là những bức ảnh 'bình thường'. Truy vấn hình ảnh có thể giống như s5 coupe truy vấn 1 hy vọng có ích!
giờ 39 phút

Những máy phát hiện tính năng thay thế nào như SIFT, GLOH hoặc SURF có sẵn để xác định các điểm chính phù hợp trên xe hơi?
jstr

@jstr nếu bạn đã thực hiện chương trình được mô tả dưới đây, nó hoạt động tốt như thế nào?
giải quyếtPu phun

Câu trả lời:


7

Tôi sẽ có một cái nhìn về cách tiếp cận được gọi là "túi từ" hoặc "từ ngữ trực quan". Nó ngày càng được sử dụng để phân loại hình ảnh và nhận dạng. Thuật toán này thường bắt đầu bằng cách phát hiện các điểm mạnh, chẳng hạn như điểm SIFT, trong một hình ảnh. Vùng xung quanh các điểm tìm thấy này (bộ mô tả Sift 128 bit trong trường hợp của bạn) được sử dụng.

Ở dạng đơn giản nhất, người ta có thể thu thập tất cả dữ liệu từ tất cả các mô tả từ tất cả các hình ảnh và phân cụm chúng, ví dụ như sử dụng phương tiện k. Mỗi hình ảnh gốc sau đó có các mô tả đóng góp vào một số cụm. Các trọng tâm của các cụm này, tức là các từ trực quan, có thể được sử dụng như một mô tả mới cho hình ảnh. Về cơ bản, bạn hy vọng rằng các cụm ảnh mà mô tả của nó đóng góp vào, là biểu thị của thể loại hình ảnh.

Một lần nữa, trong trường hợp đơn giản nhất, bạn có một danh sách các cụm và trên mỗi hình ảnh, bạn đếm xem cụm nào trong số các cụm này có mô tả từ hình ảnh đó và bao nhiêu. Điều này tương tự như phương pháp Tần số tài liệu / Tần số nghịch đảo (TD / IFD) được sử dụng trong truy xuất văn bản. Xem kịch bản Matlab nhanh và bẩn này .

Cách tiếp cận này được tích cực nghiên cứu và có nhiều thuật toán tiên tiến hơn nhiều xung quanh.

Trang web VLfeat chứa một bản demo nâng cao hơn về cách tiếp cận này, phân loại bộ dữ liệu caltech 101. Cũng đáng chú ý, là kết quả và phần mềm từ chính Caltech .


Này Maurits, cảm ơn bạn đã trả lời. Tôi sẽ nghĩ về điều đó! Nhưng một câu hỏi. Nếu tôi có 'từ ngữ trực quan', làm thế nào để tôi đo khoảng cách giữa chúng? Tôi nghĩ rằng tôi sẽ sử dụng các mô tả SIFT là đúng? - Lowe có một bài báo trong đó anh mô tả một phương pháp để nhận dạng các vật thể 3D bằng cách xây dựng các mô hình mô tả SIFT. Có ai biết một số bài báo hay khác về chủ đề này (nhận dạng đối tượng 3D với các tính năng khác) không?
jstr

Trong trường hợp này, chỉ là khoảng cách euclide, như bạn đang phân cụm các vectơ số nguyên. Tôi không nghĩ rằng bạn phải đo khoảng cách giữa các cụm trung tâm mỗi se, nhưng thay vào đó, khi được trình bày với một hình ảnh truy vấn (và do đó mô tả truy vấn) bạn đo đến mức nào các mô tả này là gần nhất.
Maurits

Ok sử dụng thước đo khoảng cách là rõ ràng ;-) nhưng trên dữ liệu nào? Trên mô tả Sift cho mỗi từ trực quan?
jstr

Trong thực tế, ba lần, như là một số liệu cho phân cụm ban đầu, để xác định xem centroid / visualword mà một mô tả truy vấn là gần nhất, và cuối cùng, để so sánh vectơ td / idf truy vấn với các cơ sở dữ liệu.
Maurits

Ok tôi hiểu rồi ;-) nhưng dữ liệu nào đo khoảng cách hoạt động? Trên các mô tả SIFT?
jstr
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.