Câu chuyện đằng sau câu chuyện về người mô tả SIFT là gì?


9

Sau đây là từ bài viết của Lowe 2004 ( http://www.cs.ubc.ca/~lowe/ con / iccv04.pdf ).

Một cách tiếp cận rõ ràng sẽ là lấy mẫu cường độ hình ảnh cục bộ xung quanh điểm then chốt ở tỷ lệ thích hợp và để phù hợp với các phương pháp này bằng cách sử dụng thước đo tương quan chuẩn hóa. Tuy nhiên, mối tương quan đơn giản của các bản vá hình ảnh rất nhạy cảm với những thay đổi gây ra sự phân phối sai của các mẫu, chẳng hạn như thay đổi quan điểm 3D hoặc 3D hoặc biến dạng không cứng nhắc. Một cách tiếp cận tốt hơn đã được Edelman, Intrator và Poggio (1997) chứng minh. Đại diện đề xuất của họ được dựa trên một mô hình của tầm nhìn sinh học, đặc biệt là các tế bào thần kinh phức tạp trong vỏ thị giác chính.Những tế bào thần kinh phức tạp này phản ứng với một gradient ở một định hướng và tần số không gian cụ thể, nhưng vị trí của gradient trên võng mạc được phép dịch chuyển qua một trường hợp tiếp nhận nhỏ hơn là được định vị chính xác. Edelman và cộng sự. đưa ra giả thuyết rằng chức năng của các nơ-ron phức tạp này là cho phép khớp và nhận dạng các vật thể 3D từ một loạt các quan điểm.

Tôi đang cố gắng để hiểu mô tả SIFT. Tôi hiểu giai đoạn trước (máy phát hiện keypoint).

Tôi không biết tại sao nó được thực hiện theo cách đó. Tôi muốn biết câu chuyện đằng sau câu chuyện.

Câu trả lời:


1

Bộ mô tả thu được từ một lân cận điểm theo tỷ lệ thu được.64×64

Nó sẽ chia vùng này thành bản vá dẫn đến 16 bản vá.64×6416×16

Đối với mỗi miếng vá, chúng tôi tính toán độ dốc và sau đó tìm hướng chiếm ưu thế của độ dốc (có một số chi tiết), sau đó lấy hướng chiếm ưu thế làm hướng tham chiếu, chúng tôi sẽ chia 360 độ cho 8 vùng góc, mỗi góc có 45 độ, sau đó tính tổng độ lớn của mỗi độ dốc nằm trong từng vùng góc.

Chúng ta có thể coi đây là phân phối hoặc biểu đồ 8 hướng của độ dốc (xem xét độ dốc mạnh có nhiều thông tin hơn, chúng ta phải sử dụng chúng với trọng số cao hơn trong tính toán phân phối để chúng ta sử dụng cường độ của chúng làm trọng số của chúng dẫn đến tổng độ lớn của chúng). Sau đó, chúng tôi sẽ bình thường hóa các biểu đồ này.

Cuối cùng cho mỗi bản vá, chúng tôi có một biểu đồ 8 thùng và chúng tôi có 16 bản vá dẫn đến mô tả 128 số.

Bằng cách tìm hướng chi phối, mô tả của chúng tôi cũng trở thành bất biến xoay vòng. Bằng cách sử dụng độ dốc, bộ mô tả của chúng ta trở nên bất biến liên quan đến chiếu sáng cơ sở và bằng cách chuẩn hóa biểu đồ thu được, bộ mô tả của chúng ta trở nên bất biến đối với độ tương phản của hình ảnh.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.