Thuật ngữ "bất biến tỷ lệ" có nghĩa như sau đây. Giả sử bạn có hình ảnh I và bạn đã phát hiện một tính năng (còn gọi là điểm quan tâm) f tại một số vị trí (x, y) và ở một mức độ tỷ lệ s . Bây giờ, giả sử bạn có một hình ảnh I ' , đó là phiên bản thu nhỏ của tôi (ví dụ như được ghép xuống). Sau đó, nếu trình phát hiện tính năng của bạn là bất biến tỷ lệ, bạn sẽ có thể phát hiện tính năng tương ứng f ' trong I' tại vị trí tương ứng (x ', y') và tỷ lệ tương ứng s ' , trong đó (x, y, s) và (x ', y', s ') có liên quan bởi sự chuyển đổi tỷ lệ thích hợp.
Nói cách khác, nếu trình phát hiện bất biến tỷ lệ của bạn đã phát hiện một điểm đặc trưng tương ứng với khuôn mặt của ai đó, và sau đó bạn phóng to hoặc thu nhỏ bằng máy ảnh của mình trên cùng một cảnh, bạn vẫn nên phát hiện một điểm đặc trưng trên khuôn mặt đó.
Tất nhiên, bạn cũng sẽ muốn có một "mô tả tính năng" cho phép bạn khớp hai tính năng, đó chính xác là những gì SIFT mang lại cho bạn.
Vì vậy, có nguy cơ làm bạn bối rối hơn nữa, có hai điều bất biến quy mô ở đây. Một là trình phát hiện điểm quan tâm DoG, là bất biến tỷ lệ, bởi vì nó phát hiện một loại tính năng hình ảnh cụ thể (đốm màu) bất kể tỷ lệ của chúng. Nói cách khác, máy dò DoG phát hiện các đốm màu có kích thước bất kỳ. Điều bất biến tỷ lệ khác là mô tả tính năng, là biểu đồ định hướng độ dốc, tương tự ít nhiều cho cùng một tính năng hình ảnh mặc dù có sự thay đổi về tỷ lệ.
Nhân tiện, sự khác biệt của Gaussian được sử dụng ở đây như là một xấp xỉ với bộ lọc Laplacian-of-Gaussians.