Sau đây là từ bài viết của Lowe 2004 ( http://www.cs.ubc.ca/~lowe/ con / iccv04.pdf ).
Một cách tiếp cận rõ ràng sẽ là lấy mẫu cường độ hình ảnh cục bộ xung quanh điểm then chốt ở tỷ lệ thích hợp và để phù hợp với các phương pháp này bằng cách sử dụng thước đo tương quan chuẩn hóa. Tuy nhiên, mối tương quan đơn giản của các bản vá hình ảnh rất nhạy cảm với những thay đổi gây ra sự phân phối sai của các mẫu, chẳng hạn như thay đổi quan điểm 3D hoặc 3D hoặc biến dạng không cứng nhắc. Một cách tiếp cận tốt hơn đã được Edelman, Intrator và Poggio (1997) chứng minh. Đại diện đề xuất của họ được dựa trên một mô hình của tầm nhìn sinh học, đặc biệt là các tế bào thần kinh phức tạp trong vỏ thị giác chính.Những tế bào thần kinh phức tạp này phản ứng với một gradient ở một định hướng và tần số không gian cụ thể, nhưng vị trí của gradient trên võng mạc được phép dịch chuyển qua một trường hợp tiếp nhận nhỏ hơn là được định vị chính xác. Edelman và cộng sự. đưa ra giả thuyết rằng chức năng của các nơ-ron phức tạp này là cho phép khớp và nhận dạng các vật thể 3D từ một loạt các quan điểm.
Tôi đang cố gắng để hiểu mô tả SIFT. Tôi hiểu giai đoạn trước (máy phát hiện keypoint).
Tôi không biết tại sao nó được thực hiện theo cách đó. Tôi muốn biết câu chuyện đằng sau câu chuyện.