Làm thế nào máy dò tính năng Hessian hoạt động?

Tôi biết về máy dò góc Harris và tôi hiểu ý tưởng cơ bản của ma trận khoảnh khắc thứ hai của nó , , cạnh và điểm không ổn định khác có thể được loại bỏ thông qua .

M = [\begin{array}{cc} I_{x}^{2} & I_{x} I_{y} \\ I_{x} I_{y} & I_{y}^{2} \end{array}]

$M = \left[ \begin{array}{cc} I_x^2 & I_xI_y \\ I_xI_y & I_y^2 \end{array} \right]$

M

$M$

Nhưng về trình phát hiện Hessian, nó sử dụng ma trận Hessian để phát hiện các điểm chính và xóa các cạnh, và tôi không hiểu làm thế nào loại bỏ cạnh và phát hiện các điểm ổn định? Ý tưởng cơ bản trực quan đằng sau nó là gì?

H = [\begin{array}{cc} I_{x x} & I_{x y} \\ I_{x y} & I_{y y} \end{array}]

$\mathcal{H} = \left[ \begin{array}{cc} I_{xx} & I_{xy} \\ I_{xy} & I_{yy} \end{array} \right]$

H

$\mathcal{H}$

— trái bơ
nguồn

Có lẽ điều này sẽ giúp: dsp.stackexchange.com/a/1735/291

— Niki Estner

Tôi sẽ cố gắng tránh toán học, bởi vì có thể dễ dàng tìm thấy các hướng dẫn về toán học và "cách thực hiện".

Vì vậy, tôi bắt đầu bằng cách chỉ ra một điều RẤT quan trọng: Người ta không tính Harris cho một pixel, mà cho một vùng lân cận (một mảng hình ảnh) xung quanh pixel đó! Đặt làm dẫn xuất của bạn cho một điểm , sau đó, $I(i)_{xx}, I(i)_{xy} ...$ $i_0$

$H = \left[ \begin{array}{cc} \sum_{i\in V}I(i)_{xx} w (i-i_0) & \sum_{i\in V}I(i)_{xy}w (i-i_0) \\ \sum_{i\in V}I(i)_{xy} w (i-i_0)& \sum_{i\in V}I(i)_{yy} w (i-i_0)\\ \end{array} \right]$

Các là một hạt nhân Gaussian. Các eq trước đó cho bạn biết tích hợp các giá trị đạo hàm trên vùng lân cận xung quanh pixel hiện tại. Mỗi giá trị của hàng xóm được nhân với một giá trị co lại khi khoảng cách tăng. Định luật giảm theo Gaussian, vì là Gaussian tập trung tại . Và đó là môn toán. $w(t)$ $V$ $w(t)$ $i_0$

Bây giờ, trở lại với những quan sát thực nghiệm. Nếu bạn chỉ sử dụng các đạo hàm và pixel đó là một phần của cấu trúc tuyến tính (cạnh), thì bạn sẽ nhận được phản hồi mạnh mẽ cho các đạo hàm. Mặt khác, nếu pixel nằm ở một góc (giao điểm của hai cạnh) thì các phản ứng phái sinh sẽ tự hủy.

Nói rằng, Hessian có thể nắm bắt cấu trúc địa phương trong vùng lân cận đó mà không cần "hủy" hiệu ứng. NHƯNG rất quan trọng, bạn phải tích hợp để có được một Hessian thích hợp.

Có một Hessian, thu được bằng phương pháp Harris hoặc bằng các phương tiện khác, người ta có thể muốn trích xuất thông tin về vùng lân cận. Có các phương pháp để có được các giá trị số về khả năng có một cạnh ở pixel hiện tại, một góc, v.v. Kiểm tra lý thuyết phát hiện góc.

Bây giờ, về "điểm ổn định" hoặc điểm nổi bật. Hình ảnh rằng bạn đang ở một thị trấn nước ngoài không có GPS và chỉ có một bản đồ tốt. Nếu bạn bị "dịch chuyển" ở giữa đường, bạn có thể xác định vị trí đường trên bản đồ, nhưng bạn không thể biết chính xác bạn đang ở đâu trên đường đó hoặc bạn nên đi theo hướng nào sang trái hoặc phải (đi tới bản đồ ). Hãy tưởng tượng bây giờ bạn đang ở một ngã tư. Sau đó, bạn chính xác có thể chỉ vị trí của bạn trên bản đồ!. (Tất nhiên, giả sử rằng hai đường không giao nhau nhiều lần).

Bây giờ hãy tưởng tượng rằng bạn phải phù hợp với hai hình ảnh. Một cái hoạt động như một bản đồ, và cái kia là thành phố. Bạn phải tìm các pixel có thể được mô tả duy nhất, để bạn có thể thực hiện khớp. Kiểm tra hình ảnh trên bài đăng này cho ví dụ phù hợp. Những điểm này được gọi là điểm nổi bật. Ngoài ra, các điểm góc có xu hướng không thay đổi các thuộc tính 'góc' của chúng khi hình ảnh được thu nhỏ, dịch, xoay, xiên, v.v. (biến đổi affine) Đây là lý do tại sao chúng được gọi là "ổn định".

Một số điểm trong hình ảnh cho phép bạn xác định duy nhất chúng. Các pixel này được đặt ở các góc hoặc tại giao điểm của các đường. Hãy tưởng tượng rằng vùng lân cận của bạn nằm trên một đường thẳng. Ngoại trừ định hướng của dòng, bạn không thể tìm thấy bất cứ điều gì khác từ vùng lân cận đó. Nhưng nếu ở một góc, hơn, bạn có thể tìm ra hướng của các đường giao nhau, có thể là góc, v.v. $V$ $V$

Không phải tất cả các điểm góc là nổi bật, nhưng chỉ có các điểm góc có cơ hội tuyệt vời để được mặn mà.

Hy vọng nó giúp!

ps Làm thế nào để tìm xem một điểm có phải là góc hay không, hãy xem bài viết của Harris.

pps Thêm về kết hợp, tìm kiếm SIFT hoặc SURF.

ppps Có một "khái quát hóa" của phương pháp Harris, được gọi là Cấu trúc kéo. Kiểm tra công việc tinh dịch Knutsson !

— thị giác
nguồn

Hiệu chỉnh nhỏ: tích hợp trong vùng lân cận của từng pixel rất quan trọng đối với các phương pháp tiếp cận cấu trúc và Harris. Đối với người Hessian, điều đó không có ý nghĩa gì nhiều: Nó tương đương với việc sử dụng kích thước bộ lọc lớn hơn cho các bộ lọc phái sinh bậc 2.

— Niki Estner

@nikie bạn đúng, nếu bạn có tín hiệu phân tích. Đối với hình ảnh kỹ thuật số (nơi bạn có các giá trị rời rạc trên lưới), lý do không được áp dụng. Bạn cần tích hợp Hessian, nếu không bạn sẽ có một ma trận suy biến. Có một dạng tenxơ cấu trúc không cần tích hợp và có thể hoạt động với các đạo hàm chỉ được tính cho pixel hiện tại. Xem liên kết Knutsson trong bài viết của tôi.

— visoft

@visoft: Tôi không chắc ý của bạn là gì. Nói đúng ra, Hessian chỉ được xác định cho các chức năng khác biệt, không phải cho hình ảnh. Bạn thường ước tính nó bằng cách tích chập với hạt nhân bộ lọc phái sinh (ví dụ: đạo hàm Gaussian). Nếu bạn làm điều đó, bạn sẽ có được một ma trận Hessian cho mỗi pixel không suy biến. Và tích hợp trên các kết quả bộ lọc này có tác dụng tương tự như sử dụng hạt nhân lớn hơn. Nó chỉ mất nhiều chu kỳ CPU.

— Niki Estner

Ok, tôi sẽ kiểm tra tài liệu và lấy lại cho bạn.

— visoft

@nikie Tôi đã chỉnh sửa bài đăng, xóa tham chiếu Hessian.

— visoft