Tại sao sự khác biệt của quy mô không gian quy mô gaussian bất biến?


15

Tôi sẽ sử dụng thuật toán biến đổi tính năng bất biến Scale làm ví dụ ở đây. SIFT tạo ra một không gian tỷ lệ dựa trên bộ lọc gaussian được chia tỷ lệ của một hình ảnh, và sau đó tính toán sự khác biệt của gaussian để phát hiện các điểm quan tâm tiềm năng. Những điểm này được định nghĩa là cực tiểu và cực đại cục bộ trên sự khác biệt của gaussian.

Người ta cho rằng cách tiếp cận này là bất biến quy mô (trong số các bất biến khó hiểu khác). Tại sao lại thế này? Tôi không rõ tại sao lại như vậy.


Không biết Sift là gì, tìm thấy cái này trên wiki en.wikipedia.org/wiki/Scale-invariant_feature_transform . "Phương pháp của Lowe để tạo tính năng hình ảnh biến một hình ảnh thành một tập hợp lớn các vectơ đặc trưng, ​​mỗi vectơ là bất biến đối với dịch hình ảnh, chia tỷ lệ và xoay, một phần bất biến đối với các thay đổi chiếu sáng và biến dạng mạnh mẽ thành biến dạng hình học cục bộ.". Đó có phải là lời giải thích?
niaren

Vâng, đó là những gì tôi đang nói về
nước

SIFT sử dụng lý thuyết không gian tỷ lệ. Tuy nhiên tôi không hiểu ý nghĩa của tính bất biến "quy mô" trong lý thuyết đó. Bạn có thể thử đọc các bài báo của Tony Lindeberg về nó: csc.kth.se/~tony/earlyvision.html
maximus

Câu trả lời:


7

Thuật ngữ "bất biến tỷ lệ" có nghĩa như sau đây. Giả sử bạn có hình ảnh I và bạn đã phát hiện một tính năng (còn gọi là điểm quan tâm) f tại một số vị trí (x, y) và ở một mức độ tỷ lệ s . Bây giờ, giả sử bạn có một hình ảnh I ' , đó là phiên bản thu nhỏ của tôi (ví dụ như được ghép xuống). Sau đó, nếu trình phát hiện tính năng của bạn là bất biến tỷ lệ, bạn sẽ có thể phát hiện tính năng tương ứng f ' trong I' tại vị trí tương ứng (x ', y') và tỷ lệ tương ứng s ' , trong đó (x, y, s)(x ', y', s ') có liên quan bởi sự chuyển đổi tỷ lệ thích hợp.

Nói cách khác, nếu trình phát hiện bất biến tỷ lệ của bạn đã phát hiện một điểm đặc trưng tương ứng với khuôn mặt của ai đó, và sau đó bạn phóng to hoặc thu nhỏ bằng máy ảnh của mình trên cùng một cảnh, bạn vẫn nên phát hiện một điểm đặc trưng trên khuôn mặt đó.

Tất nhiên, bạn cũng sẽ muốn có một "mô tả tính năng" cho phép bạn khớp hai tính năng, đó chính xác là những gì SIFT mang lại cho bạn.

Vì vậy, có nguy cơ làm bạn bối rối hơn nữa, có hai điều bất biến quy mô ở đây. Một là trình phát hiện điểm quan tâm DoG, là bất biến tỷ lệ, bởi vì nó phát hiện một loại tính năng hình ảnh cụ thể (đốm màu) bất kể tỷ lệ của chúng. Nói cách khác, máy dò DoG phát hiện các đốm màu có kích thước bất kỳ. Điều bất biến tỷ lệ khác là mô tả tính năng, là biểu đồ định hướng độ dốc, tương tự ít nhiều cho cùng một tính năng hình ảnh mặc dù có sự thay đổi về tỷ lệ.

Nhân tiện, sự khác biệt của Gaussian được sử dụng ở đây như là một xấp xỉ với bộ lọc Laplacian-of-Gaussians.


Bạn đã lấy một số thông tin từ lý thuyết không gian quy mô. Bạn có thể vui lòng mô tả giải thích chính xác những gì xảy ra khi so sánh hai tín hiệu bằng lý thuyết không gian tỷ lệ không? Lindeberg trong các bài báo của mình: csc.kth.se/~tony/earlyvision.html đã đưa ra một số ví dụ về việc phát hiện các đốm màu, v.v ...
châm ngôn

Bạn nói đúng. Tôi chỉ cố gắng mô tả trực giác đằng sau lý thuyết không gian quy mô. Những gì bạn đang hỏi nên là một câu hỏi riêng biệt. :) Tôi nghĩ những gì bạn đang nói là các dẫn xuất được thực hiện ở các quy mô khác nhau phải được chuẩn hóa một cách thích hợp. Khi bạn đi đến thang đo thô hơn, tín hiệu được làm mịn, do đó biên độ bị giảm. Điều đó có nghĩa là độ lớn của các dẫn xuất cũng bị giảm. Do đó, để so sánh phản ứng phái sinh trên các thang đo, bạn cần nhân chúng với
Dima

sức mạnh thích hợp của sigma: phái sinh đầu tiên bởi sigma, thứ hai bởi sigma ^ 2, v.v.
Dima

@maximus, ôi, tôi sương mù @. :)
Dima

Cảm ơn bạn đã trả lời của bạn! Nó đã giúp tôi, nhưng vẫn còn một số câu hỏi mà tôi đã hỏi như một câu hỏi khác ở đây: dsp.stackexchange.com/questions/570/ Kẻ
maximus

5

Sự khác biệt của gaussian không phải là bất biến tỷ lệ. Bất biến tỷ lệ Sift (ở mức độ giới hạn) vì nó tìm kiếm cực trị DoG trên không gian tỷ lệ - đó là tìm tỷ lệ với DoG cực trị cả về mặt không gian và tương đối so với các thang đo lân cận. Bởi vì DoG đầu ra thu được cho thang đo cố định này (đó không phải là chức năng của thang đo đầu vào) nên không phụ thuộc vào quy mô, đó là bất biến tỷ lệ.


1
Đúng. Nhưng nó chỉ tìm kiếm extrema dọc theo quy mô lân cận . Đây không phải là tất cả các quy mô, trừ khi tôi nhầm. Ngay cả khi đó là tất cả các tỷ lệ, vẫn không rõ quy mô độc lập như thế nào
nước

@water, điều đó hoàn toàn chính xác. Bạn không muốn một cực trị trên tất cả các quy mô, bạn muốn cực trị cục bộ. Điều này cho phép bạn phát hiện các cấu trúc lồng nhau, ví dụ như một vòng tròn nhỏ tối trong vòng tròn sáng lớn trên nền màu xám.
Dima

DoG được sử dụng thay vì LoG vì tính toán DoG nhanh hơn.
châm ngôn
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.