Sift là một cách tốt để trích xuất các tính năng từ một hình ảnh?


13

Tôi đang cố gắng trích xuất các tính năng từ một hình ảnh, nhưng tôi đã không đạt được các điểm mà tôi muốn trích xuất, và do đó hình ảnh của tôi không khớp với mẫu.

Có bất kỳ điểm kiểm tra nào mà tôi phải trải qua trước khi áp dụng SIFT cho hình ảnh của mình để tôi có được kết quả tốt không? Ví dụ hình ảnh mẫu là;
nhập mô tả hình ảnh ở đây

hình ảnh mục tiêu; nhập mô tả hình ảnh ở đây


1
Phụ thuộc vào loại hình ảnh và những gì bạn muốn sử dụng các tính năng cho. Thông tin thêm xin vui lòng.

Câu trả lời:


14

Những gì bạn phải làm khi khớp mẫu với hình ảnh bằng cách sử dụng sàng lọc là chạy sàng lọc với mẫu của bạn và sau đó tìm kiếm các tính năng sàng lọc đó trong cách sắp xếp đó trong cảnh của bạn.

Quy tắc của ngón tay cái: So sánh thích để thích.

Sift (Bản mẫu) Chứa trong Sift (Hình ảnh)

Bạn không thể điều chỉnh Sift để trích xuất "các tính năng bạn muốn" Sift * sử dụng các biện pháp bất biến để tìm các tính năng mà nó tin là nổi bật nhất. (* Chris A)

Nếu bạn muốn nó tìm các tính năng cụ thể từ mẫu của bạn, hãy tạo các mẫu nhỏ hơn của các tính năng đó và tìm kiếm chúng.

Chỉ là một gợi ý. Tôi không biết chính xác loại mẫu bạn đang cố gắng để phù hợp với loại cảnh hoặc hình ảnh.


7
+1, tôi đồng ý. Ngoại trừ một điều. SIFT không tìm thấy các tính năng bất biến nhất. Nó sử dụng các biện pháp bất biến để tìm các tính năng mà nó tin là nổi bật nhất.

7

Tôi không chắc nếu bạn chỉ muốn khớp hai hình ảnh (ví dụ: tìm các điểm chung) hoặc bạn muốn thử một cái gì đó như CBIR (Truy xuất hình ảnh dựa trên nội dung - tìm kiếm cơ sở dữ liệu với hình ảnh mẫu để tìm tất cả có chứa vật).

Tôi hiện đang thực hiện nghiên cứu CBIR, vì vậy tôi khá cập nhật với các phương pháp hiện tại. Đâyđây là các liên kết đến câu trả lời của tôi cho các vấn đề tương tự như của bạn từ stackoverflow, bạn nên xem qua.

Bây giờ, để nói về SIFT một chút. Khi được Lowe giới thiệu lần đầu tiên , thuật ngữ SIFT áp dụng cả cho quá trình phát hiện tính năng và cho các mô tả tính năng được tính trên các điểm quan tâm được phát hiện đó. Cho đến ngày nay, các mô tả SIFT đã được chứng minh là tuyệt vời không thể tin được. Các mô tả có một số thuộc tính tuyệt vời mà @Totero đã đề cập.

Mặt khác, phương pháp phát hiện SIFT , ngày nay ngày càng được gọi là DoG (Sự khác biệt của Gaussian), không còn là hiện đại nữa. Nó vẫn được sử dụng rộng rãi, nhưng đối với quá trình phát hiện tính năng, ngày nay có nhiều phương pháp hơn, một số phương pháp tốt hơn hoặc bổ sung tốt hơn cho các loại trích xuất bất biến của quy trình DoG.

Hầu hết các bài báo hiện tại (xem các liên kết trong các câu hỏi stackoverflow được liên kết) có một cách thực hành hay hơn: chúng kết hợp nhiều cách để phát hiện các tính năng, sau đó sử dụng các mô tả SIFT (vẫn còn là mô tả) để tính toán các biểu diễn vector bất biến. Tôi hiện đang làm việc với sự kết hợp của DoG (họ tập trung vào các phần giống như hình ảnh góc) và các vùng MSER (họ tập trung vào các điểm phân biệt giống như blob thông qua nhiều tỷ lệ). Bạn có thể muốn thử và thử nghiệm và ném nhiều loại máy dò tính năng hơn vào đó, nếu bạn thấy sự kết hợp này không thỏa đáng trên cơ sở dữ liệu hình ảnh cụ thể của bạn.

Ngoài ra, nếu bạn quan tâm, đây là một bài viết đánh giá các khuôn mẫu của các kết hợp mô tả và phát hiện khác nhau. Tôi chưa đọc nó vì DoG & MSER + SIFT hoạt động tốt với tôi, nhưng tôi đã đọc lướt nó và bài báo khá hay.

PS: sử dụng học giả google nếu bạn không có quyền truy cập vào cơ sở dữ liệu IEEEXplore mà tôi đã liên kết đến.


chỉ cần làm rõ một chút: DoG là viết tắt của Sự khác biệt của Gaussian (sự khác biệt giữa hai phản ứng bộ lọc gaussian)
Libor

2

Dựa trên các phản hồi trước đó:

(1) Bạn có thể sử dụng SIFT (hoặc một biến thể cải tiến khác của bộ mô tả bản vá cục bộ này) với lấy mẫu dày đặc, thay vì bộ phát hiện sẵn có. Bạn có thể chọn kích thước của miếng vá cục bộ và mật độ lấy mẫu cho phù hợp với yêu cầu của bạn về hiệu suất và chi phí tính toán.

(2) SIFT là một mô tả bất biến affine cho kết hợp âm thanh nổi cơ sở rộng. Điều này có nghĩa là SIFT hoạt động tốt khi bạn chụp ảnh và tạo ra biến đổi affine cho nó, trong đó 'mẫu' phải có trong ảnh đích mặc dù có biến đổi.

Gợi ý: (a) Tạo cơ sở dữ liệu về hình ảnh mẫu (nếu có thể) để cải thiện cơ hội phát hiện hình ảnh của bạn.

(b) Bạn có thể sử dụng mô hình BoW làm đường cơ sở nếu bạn chọn áp dụng phương pháp CBIR cho nhiệm vụ của mình.

(c) Cắt hình ảnh mẫu của bạn thành chỉ phần có liên quan và sử dụng Sift rất dày đặc. http://www.vlfeat.org/overview/dsift.html

(4) Sau này, bạn có thể muốn thử một bộ mô tả quy mô đa dạng như PHOG (Biểu đồ Kim tự tháp của các học sinh), v.v ... có khả năng cải thiện kết quả. http://www.vlfeat.org/overview/dsift.html#tut.dsift.phow

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.