Tôi là một người mới trong việc xử lý hình ảnh và thị giác máy tính, vì vậy câu hỏi này có thể là ngu ngốc đối với bạn.
Tôi vừa học được một số thuật toán phát hiện và mô tả tính năng, chẳng hạn như Harris, Hessian, SIFT, SURF , họ xử lý hình ảnh để tìm ra các điểm chính đó và sau đó tính toán một mô tả cho từng mô tả, mô tả sẽ được sử dụng để khớp với tính năng.
Tôi đã thử Sift và SURF, thấy rằng chúng không mạnh mẽ như tôi nghĩ, vì đối với 2 hình ảnh (một hình ảnh được xoay và gắn một chút), chúng không khớp với các tính năng, trong số gần 100 điểm tính năng, chỉ có 10 điểm trận đấu là tốt.
Vì vậy, tôi tự hỏi
Chúng ta có thể sử dụng những thuật toán phát hiện tính năng này để làm gì? Có thuật toán nào mạnh mẽ hơn để phát hiện và kết hợp tính năng không? Hoặc SIFT và SURF đã tốt, tôi chỉ cần tinh chỉnh nó để sử dụng thêm?
Một vấn đề khác là tôi nghĩ các thuật toán này không hoàn toàn dành cho ứng dụng thời gian thực (không xem xét triển khai đa lõi), nhưng có một số sản phẩm thương mại (như Kinect) hoạt động và phản hồi trong thời gian thực! Tôi giả sử những sản phẩm này cũng phát hiện và kết hợp tính năng từ những gì họ thấy , họ có sử dụng các thuật toán như SIFT không? Làm thế nào họ có thể phát hiện các tính năng rất tốt?
Với kiến thức hạn chế của mình, tôi biết kết hợp tính năng có thể được sử dụng để tìm ra các đối tượng giống nhau trong hai hình ảnh, hoặc ước tính đồng nhất, nhưng có mục đích nào khác để khớp tính năng không?