Sự khác biệt giữa sự khác biệt của Gaussian, Laplace of Gaussian và Mexico Hat Wavelet là gì?

Có ba kỹ thuật được sử dụng trong CV có vẻ rất giống nhau, nhưng có sự khác biệt tinh tế:

Laplacian của Gaussian: $\nabla^2\left[g(x,y,t)\ast f(x,y)\right]$
Sự khác biệt của Gaussian: $\left[g_1(x,y,t)\ast f(x,y)\right] - \left[g_2(x,y,t)\ast f(x,y)\right]$
Kết hợp với wavelet Ricker : $\textrm{Ricker}(x,y,t)\ast f(x,y)$

Theo tôi hiểu hiện tại: DoG là một xấp xỉ của LoG. Cả hai đều được sử dụng trong phát hiện blob và cả hai đều hoạt động cơ bản như các bộ lọc thông dải. Kết hợp với sóng con Hat / Ricker Mexico dường như đạt được rất nhiều hiệu quả tương tự.

Tôi đã áp dụng cả ba kỹ thuật cho tín hiệu xung (với tỷ lệ cần thiết để có được cường độ tương tự) và kết quả khá gần. Trên thực tế, LoG và Ricker trông gần giống nhau. Sự khác biệt thực sự duy nhất tôi nhận thấy là với DoG, tôi có 2 tham số miễn phí để điều chỉnh ( và ) so với 1 cho LoG và Ricker. Tôi cũng thấy wavelet là dễ nhất / nhanh nhất, vì nó có thể được thực hiện với một phép chập duy nhất (được thực hiện thông qua phép nhân trong không gian Fourier với FT của hạt nhân) so với 2 cho DoG, và tích chập cộng với Laplacian cho LoG. $\sigma_1$ $\sigma_1$

Những lợi thế / nhược điểm so sánh của từng kỹ thuật là gì?
Có trường hợp sử dụng khác nhau trong đó người này vượt trội hơn người khác?

Tôi cũng có suy nghĩ trực quan rằng trên các mẫu rời rạc, LoG và Ricker suy biến thành cùng một hoạt động, vì có thể được triển khai dưới dạng kernel . $\nabla^2$

[\begin{matrix} - 1, & 2, & - 1 \end{matrix}] or [\begin{matrix} 0 & - 1 & 0 \\ - 1 & 4 & - 1 \\ 0 & - 1 & 0 \end{matrix}] for 2D images

$\begin{bmatrix}-1,& 2,& -1\end{bmatrix}\quad\text{or}\quad\begin{bmatrix} 0 & -1 & 0 \\ -1 & 4 & -1 \\ 0 & -1 & 0 \end{bmatrix}\quad\text{for 2D images}$

Áp dụng thao tác đó cho một gaussian làm phát sinh sóng con Ricker / Hat. Hơn nữa, vì LoG và DoG có liên quan đến phương trình khuếch tán nhiệt, tôi cho rằng tôi có thể làm cho cả hai khớp với đủ thông số.

(Tôi vẫn bị ướt chân với những thứ này để cảm thấy thoải mái khi sửa / làm rõ bất kỳ điều nào trong số này!)

— DeusXMachina
nguồn

Câu trả lời:

Laplace của Gaussian

Laplace of Gaussian (LoG) của hình ảnh có thể được viết là $f$

\nabla^{2} (f * g) = f * \nabla^{2} g

$\nabla^2 (f * g) = f * \nabla^2 g$

với hạt nhân Gaussian và tích chập. Đó là, Laplace của hình ảnh được làm mịn bởi hạt nhân Gaussian giống hệt với hình ảnh được kết hợp với Laplace của hạt nhân Gaussian. Sự tích chập này có thể được mở rộng hơn nữa, trong trường hợp 2D, như $g$ $*$

f * \nabla^{2} g = f * (\frac{\partial^{2}}{\partial x^{2}} g + \frac{\partial^{2}}{\partial y^{2}} g) = f * \frac{\partial^{2}}{\partial x^{2}} g + f * \frac{\partial^{2}}{\partial y^{2}} g

$f * \nabla^2 g = f * \left(\frac{\partial^2}{\partial x^2}g+\frac{\partial^2}{\partial y^2}g\right) = f * \frac{\partial^2}{\partial x^2}g + f * \frac{\partial^2}{\partial y^2}g$

Do đó, có thể tính toán nó như là sự bổ sung hai độ chụm của hình ảnh đầu vào với các đạo hàm thứ hai của hạt nhân Gaussian (trong 3D, đây là 3 độ chụm, v.v.). Điều này rất thú vị vì hạt nhân Gaussian có thể tách rời, cũng như các dẫn xuất của nó. Đó là,

f (x, y) * g (x, y) = f (x, y) * (g (x) * g (y)) = (f (x, y) * g (x)) * g (y)

$f(x,y) * g(x,y) = f(x,y) * \left( g(x) * g(y) \right) = \left( f(x,y) * g(x) \right) * g(y)$

có nghĩa là thay vì tích chập 2D, chúng ta có thể tính toán điều tương tự bằng cách sử dụng hai tích chập 1D. Điều này tiết kiệm rất nhiều tính toán. Đối với hạt nhân Gaussian nhỏ nhất có thể nghĩ, bạn có 5 mẫu dọc theo mỗi chiều. Một phép tích chập 2D đòi hỏi 25 phép nhân và phép cộng, hai phép tích phân 1D yêu cầu 10. Hạt nhân càng lớn hoặc càng có nhiều kích thước trong ảnh thì các khoản tiết kiệm tính toán này càng có ý nghĩa.

Do đó, LoG có thể được tính bằng bốn cấu trúc 1D. Mặc dù vậy, hạt nhân LoG không thể tách rời.

Có một xấp xỉ trong đó hình ảnh được kết hợp đầu tiên với hạt nhân Gaussian và sau đó được thực hiện bằng cách sử dụng các khác biệt hữu hạn, dẫn đến hạt nhân 3x3 với -4 ở giữa và 1 ở bốn cạnh lân cận. $\nabla^2$

Các bước sóng Ricker hoặc toán tử mũ Mexico giống hệt với LoG, cho đến khi mở rộng và chuẩn hóa .

Sự khác biệt của Gaussian

Sự khác biệt của Gaussian (DoG) của hình ảnh có thể được viết là $f$

f * g_{(1)} - f * g_{(2)} = f * (g_{(1)} - g_{(2)})

$f * g_{(1)} - f * g_{(2)} = f * (g_{(1)} - g_{(2)})$

Vì vậy, giống như với LoG, DoG có thể được xem như một tích chập 2D không thể tách rời hoặc tổng (sự khác biệt trong trường hợp này) của hai kết hợp có thể tách rời. Nhìn theo cách này, có vẻ như không có lợi thế tính toán nào khi sử dụng DoG so với LoG. Tuy nhiên, DoG là bộ lọc thông dải có thể điều chỉnh, LoG không thể điều chỉnh theo cùng một cách và nên được xem như là toán tử phái sinh. DoG cũng xuất hiện một cách tự nhiên trong cài đặt không gian tỷ lệ, trong đó hình ảnh được lọc ở nhiều tỷ lệ (Gaussian với các sigmas khác nhau), sự khác biệt giữa các tỷ lệ tiếp theo là DoG.

Có một xấp xỉ với hạt nhân DoG có thể tách rời, giảm một nửa chi phí tính toán, mặc dù phép tính gần đúng đó không phải là đẳng hướng, dẫn đến sự phụ thuộc quay vòng của bộ lọc.

Tôi đã từng chỉ ra (cho bản thân tôi) sự tương đương của LoG và DoG, đối với một DoG trong đó sự khác biệt về sigma giữa hai hạt nhân Gaussian là cực kỳ nhỏ (tính theo tỷ lệ). Tôi không có hồ sơ về điều này, nhưng nó không khó để hiển thị.

Các hình thức tính toán khác của các bộ lọc này

Câu trả lời của Laurent đề cập đến việc lọc đệ quy và OP đề cập đến tính toán trong miền Fourier. Những khái niệm này áp dụng cho cả LoG và DoG.

Các Gaussian và nó dẫn xuất có thể được tính bằng cách sử dụng hệ nhân quả và chống nhân quả lọc IIR. Vì vậy, tất cả các cấu trúc 1D được đề cập ở trên có thể được áp dụng trong thời gian không đổi ghi sigma. Lưu ý rằng điều này chỉ hiệu quả đối với các sigmas lớn hơn.

Tương tự, bất kỳ tích chập nào cũng có thể được tính toán trong miền Fourier, do đó, cả hai nhân DoG và LoG 2D đều có thể được chuyển đổi sang miền Fourier (hoặc được tính toán ở đó) và được áp dụng bằng cách nhân.

Tóm lại là

Không có sự khác biệt đáng kể về độ phức tạp tính toán của hai phương pháp này. Tôi vẫn chưa tìm thấy một lý do chính đáng để ước tính LoG bằng DoG.

— Cris Luengo
nguồn

Đây là một câu trả lời tuyệt vời! Tôi sẽ cập nhật đây là câu trả lời mới, không phải câu trả lời của Laurent là sai hay chưa hoàn chỉnh, nhưng bạn đã dành thời gian để thêm một góc nhìn thứ hai tuyệt vời cho câu hỏi đã trả lời một năm tuổi.

— DeusXMachina

DoG và LoG gặp nhau trên thang đo "vỏ cây"

— Laurent Duval

Các bước sóng Ricker, các bước sóng Marr (đẳng hướng), mũ Mexico hoặc Laplacian của Gaussian thuộc cùng một khái niệm: các bước sóng được chấp nhận liên tục (thỏa mãn một số điều kiện nhất định). Theo truyền thống, wavelet Ricker là phiên bản 1D. Bước sóng Marr hoặc mũ Mexico là những cái tên được đặt trong bối cảnh phân rã hình ảnh 2D, bạn có thể xem xét ví dụ Mục 2.2 của Toàn cảnh về các biểu diễn hình học đa sắc, đan xen không gian, định hướng và tần số , Xử lý tín hiệu, 2011, L. Jacques et al. Laplacian của Gaussian là sự khái quát đa chiều.

Tuy nhiên, trong thực tế, mọi người chấp nhận các loại khác nhau, ở các cấp độ khác nhau.

Tôi có xu hướng tin rằng (trừ khi được cung cấp thêm chi tiết) rằng hạt nhân gradient rời rạc được áp dụng cho Gaussian không phải là Ricker gốc, mà là một sự đơn giản hóa, giải thích sự khác biệt tinh tế trong biểu đồ. Tôi quan tâm đến tài liệu tham khảo. Thật vậy, bạn có thể có ít nhất hai tách tự nhiên của toán tử Laplacian (4 và 8 hàng xóm): $3\times 3$ $3\times 3$

(\begin{matrix} 0 & - 1 & 0 \\ - 1 & 4 & - 1 \\ 0 & - 1 & 0 \end{matrix})

$\begin{pmatrix} 0 & -1 & 0 \\ -1 & 4 & -1 \\ 0 & -1 & 0 \\ \end{pmatrix}$

hoặc Ngoài ra, còn có các xấp xỉ khác nhân nhân hoặc các avatar khác của Laplacian / Laplacian của Gaussian .

(\begin{matrix} - 1 & - 1 & - 1 \\ - 1 & 8 & - 1 \\ - 1 & - 1 & - 1 \end{matrix})

$\begin{pmatrix} -1 & -1 & -1 \\ -1 & 8 & -1 \\ -1 & -1 & -1 \\ \end{pmatrix}$

5 \times 5

$5\times 5$

Với sự lựa chọn phù hợp về tỷ lệ phương sai của họ và (thường là khoảng 1.6), một sự khác biệt của Gaussian cung cấp một xấp xỉ có thể phân tách tốt cho LoG (ví dụ: Lọc gần như Gaussian , P. Kovesi). Những Gaussian đó có thể lần lượt được xấp xỉ bằng các Gaussian gần đúng đệ quy . $\sigma_1$ $\sigma_2$

Nhưng các tỷ lệ khác đã được sử dụng, ví dụ, trong một số kim tự tháp Laplacian, điều đó biến DoG nhiều hơn thành các bộ lọc băng thông chung hoặc máy dò cạnh.

Tham khảo lần cuối: Kết hợp hình ảnh bằng cách sử dụng các điểm quan tâm không gian tỷ lệ tổng quát , T. Lindeberg, 2015.

— Laurent Duval
nguồn

Rất giác ngộ, cảm ơn bạn! Vì vậy, có vẻ như từ Fast Gaussian Smoothing rằng DoG có lợi thế tính toán ở chỗ nó có thể được thực hiện trực tiếp trong miền không gian, vì vậy tôi hình dung, ví dụ, xử lý tín hiệu trên chip cho thị giác máy tính tích hợp / CCD. Ngoài ra, A Panorama trông giống như một tổng thể đọc tuyệt vời, cảm ơn!

— DeusXMachina

Với xấp xỉ nhanh, bạn thực sự có thể thực hiện một số hoạt động độc lập với quy mô

— Laurent Duval

Tỷ lệ 1.6 đến từ đâu? Nếu bạn viết ra toán học, bạn có thể thấy rằng có một sự tương đương chính xác giữa đạo hàm thứ hai của Gaussian và sự khác biệt của Gaussian với sự khác biệt vô hạn trong sigma (lên tới tỷ lệ).

— Cris Luengo

Từ Marr và Hildreth, 1980, phụ lục B, họ gọi đó là "xấp xỉ kỹ thuật tốt nhất", với sự đánh đổi giữa băng thông và độ nhạy, dựa trên các đường cong công đức trong khi thay đổi tỷ lệ chiều rộng. Tôi đã gặp một số tác phẩm trong quá khứ bởi những người ở Delft, cùng tên. Sự trùng hợp?

— Laurent Duval

@LaurentDuval: Tôi đã học tiến sĩ ở Delft. Không có người khác ở đó với tên của tôi, AFAIK. Tôi có thể thấy làm thế nào bạn có thể rút ra một cách tối ưu (chủ quan) dựa trên độ nhạy và băng thông. Nếu tỷ lệ quá nhỏ, đáp ứng quá thấp, có thể phụ thuộc nhiều vào tiếng ồn rời rạc hơn bất cứ điều gì khác; nếu tỷ lệ quá cao, nó không phải là một bộ lọc thú vị. Có ý nghĩa. Cảm ơn!

— Cris Luengo