Hiểu quy trình tính toán SURF

Vì vậy, tôi đã đọc bài báo trên SURF (Bay, Ess, Tuytelaars, Van Gool: Các tính năng mạnh mẽ tăng tốc (SURF) ) và tôi không thể hiểu đoạn này dưới đây:

Do sử dụng bộ lọc hộp và hình ảnh tích hợp, chúng tôi không phải lặp lại áp dụng cùng một bộ lọc cho đầu ra của lớp được lọc trước đó, mà thay vào đó có thể áp dụng bộ lọc hộp có kích thước bất kỳ với tốc độ chính xác trực tiếp trên ảnh gốc và thậm chí song song (mặc dù cái sau không được khai thác ở đây). Do đó, không gian tỷ lệ được phân tích bằng cách tăng kích thước bộ lọc thay vì lặp lại giảm kích thước hình ảnh, hình 4.

This is figure 4 in question.

hinh 4

PS: Bài viết có giải thích về hình ảnh tích hợp, tuy nhiên toàn bộ nội dung của bài viết dựa trên đoạn văn cụ thể ở trên. Nếu bất cứ ai đã đọc bài viết này, bạn có thể đề cập ngắn gọn những gì đang xảy ra ở đây. Toàn bộ lời giải thích toán học khá phức tạp để có một nắm bắt tốt trước tiên, vì vậy tôi cần một số trợ giúp. Cảm ơn.

Chỉnh sửa, một số vấn đề:

Mỗi quãng tám được chia thành một số cấp tỷ lệ không đổi. Do tính chất rời rạc của hình ảnh tích phân, chênh lệch tỷ lệ tối thiểu giữa 2 thang đo tiếp theo phụ thuộc vào độ dài lo của các thùy dương hoặc âm của đạo hàm bậc hai một phần theo hướng đạo hàm (x hoặc y), được đặt thành a thứ ba của chiều dài kích thước bộ lọc. Đối với bộ lọc 9x9, độ dài lo này là 3. Đối với hai mức liên tiếp, chúng ta phải tăng kích thước này tối thiểu 2 pixel (một pixel ở mỗi bên) để giữ kích thước không đồng đều và do đó đảm bảo sự hiện diện của pixel trung tâm . Điều này dẫn đến việc tăng tổng kích thước mặt nạ lên 6 pixel (xem hình 5).

Figure 5

Hình 5

Tôi không thể hiểu ý nghĩa của các dòng trong bối cảnh nhất định.

Đối với hai cấp độ liên tiếp, chúng ta phải tăng kích thước này tối thiểu 2 pixel (một pixel ở mỗi bên) để giữ kích thước không đồng đều và do đó đảm bảo sự hiện diện của pixel trung tâm.

Tôi biết họ đang cố gắng làm một cái gì đó với độ dài của hình ảnh, nếu thậm chí họ đang cố làm cho nó trở nên kỳ lạ, để có một pixel trung tâm sẽ cho phép họ tính toán tối đa hoặc tối thiểu của độ dốc pixel. Tôi hơi iffy về ý nghĩa ngữ cảnh của nó.

Để tính toán mô tả Haar wavelet được sử dụng.

Rìu Haar

$\sum\ dx$ $\sum\ |dx|$ .

Một số khác

Sự cần thiết phải có một bộ lọc gần đúng là gì?

4. Tôi không có vấn đề gì với cách họ tìm ra kích thước của bộ lọc. Họ "đã làm" một cái gì đó theo kinh nghiệm. Tuy nhiên, tôi có một số vấn đề dai dẳng với dòng này

Đầu ra của bộ lọc 9x9, được giới thiệu trong phần trước, được coi là lớp tỷ lệ ban đầu, mà chúng ta sẽ gọi là thang đo s = 1,2 (xấp xỉ các dẫn xuất Gaussian với = 1,2).

Làm thế nào mà họ phát hiện ra giá trị của. Ngoài ra, cách tính tỷ lệ được thực hiện trong hình ảnh bên dưới. Lý do tôi nói về hình ảnh này là giá trị của việc s=1.2tiếp tục lặp lại, mà không nêu rõ về nguồn gốc của nó. Tỷ lệ hình ảnh

5. Ma trận Hessian được biểu thị theo Lđó là tích chập của gradient bậc hai của bộ lọc Gausssian và hình ảnh.

Tuy nhiên, định thức "gần đúng" được cho là chỉ chứa các thuật ngữ liên quan đến bộ lọc Gaussian bậc hai.

Giá trị của wlà:

Câu hỏi của tôi tại sao định thức được tính như thế ở trên, và mối quan hệ giữa ma trận Hessian và Hessian gần đúng là gì.

image-processing computer-vision multi-scale-analysis

— động cơ
nguồn

Chào! Tôi đã thêm tên tác giả và tiêu đề bài viết trong câu hỏi của bạn, tôi hy vọng bạn không phiền. Đầu tiên, nó làm cho bài viết có thể tìm kiếm ngay cả khi liên kết bị chết. Thứ hai, là một người làm nghiên cứu, tôi nghĩ rằng các tác giả đáng tin cậy với tên và tên của ấn phẩm là điều ít nhất chúng ta có thể làm để thừa nhận công việc của họ :)

— Penelope

@penelope: Tôi đã sợ một nửa rằng mọi người sẽ bỏ phiếu cho tôi vào quên lãng.

— motiur

Tôi nghĩ đó là một câu hỏi thực sự hay, một trong những câu hỏi thú vị hơn gần đây. Tôi chưa bao giờ tham gia vào SURF, nhưng tôi có thể thử và xem ngày mai và xem liệu tôi có thể đóng góp không, câu hỏi thực sự khiến tôi quan tâm :) và PS: nếu bạn đang thực hiện điều này như một phần của dự án Uni "chính thức" , Tôi chắc chắn rằng người giám sát của bạn sẽ sẵn lòng giúp đỡ bạn (đặc biệt nếu bạn ở cấp độ Master). Một phần công việc của họ là dạy bạn cách đọc tài liệu khoa học.

— Penelope

PPS: bạn có thể muốn chỉnh sửa câu hỏi của mình để thêm một lời giải thích ngắn gọn về các thuật ngữ tích hợp hình ảnh và bộ lọc hộp : hiểu những gì bạn hiểu có thể sẽ giúp chúng tôi hiểu những gì bạn không hiểu;)

— penelope

@penelope: Bạn là một cô gái / chàng trai khá dễ thương, sao cũng được. Và không, tôi phải có một bài phê bình văn học của bài báo này, tôi đã đọc một bài được viết bởi David Lowe cả năm 2004 và 1999. Bài đó khá kém ổn định, cộng với đó là một bài giảng trên youtube rất hay. Vấn đề là có hàng tấn thuật ngữ toán học được sử dụng trong bài báo này, một thuật ngữ có SURF. Nếu bạn không có một mô hình toán học trong đầu, thật khó để thấy ý chính.

— motiur

Câu trả lời:

BỆNH NHÂN LÀ GÌ?

Để hiểu chính xác những gì đang diễn ra, bạn cũng cần phải làm quen với SIFT : SURF về cơ bản là một xấp xỉ của SIFT. Bây giờ, câu hỏi thực sự trở thành: Sift là gì? .

SIFT vừa là trình phát hiện điểm chính vừa là mô tả điểm chính . Trong phần phát hiện, SIFT về cơ bản là một biến thể đa quy mô của các máy dò góc cổ điển như góc Harris và có khả năng tự động điều chỉnh thang đo. Sau đó, được cung cấp một vị trí và kích thước bản vá (xuất phát từ tỷ lệ), nó có thể tính toán phần mô tả.

SIFT rất giỏi trong việc ghép các mảnh hình ảnh có liên quan cục bộ, nhưng nó có một nhược điểm: nó rất tốn kém (nghĩa là dài) để tính toán. Một lượng lớn thời gian được dành cho việc tính toán không gian tỷ lệ Gaussian (trong phần máy dò), sau đó trong biểu đồ tính toán của hướng gradient (đối với phần mô tả).

Cả SIFT và SURF có thể được coi là sự khác biệt của Gaussian với lựa chọn thang đo tự động (nghĩa là kích thước Gaussian). Điều này, trước tiên bạn xây dựng một không gian tỷ lệ trong đó hình ảnh đầu vào được lọc ở các tỷ lệ khác nhau. Không gian tỷ lệ có thể được xem như một kim tự tháp, trong đó hai hình ảnh liên tiếp có liên quan đến sự thay đổi tỷ lệ (nghĩa là kích thước của bộ truyền thông thấp Gaussian đã thay đổi) và quy mô sau đó được nhóm lại bằng các quãng tám (nghĩa là một sự thay đổi lớn trong kích thước của bộ lọc Gaussian).

Trong SIFT, điều này được thực hiện bằng cách lọc nhiều lần đầu vào với Gaussian có chiều rộng cố định cho đến khi đạt được tỷ lệ của quãng tám tiếp theo.
Trong SURF, bạn không phải chịu bất kỳ hình phạt thời gian chạy nào từ kích thước của bộ lọc Gaussian nhờ sử dụng thủ thuật hình ảnh tích hợp. Do đó, bạn tính trực tiếp hình ảnh được lọc ở mỗi tỷ lệ (không sử dụng kết quả ở tỷ lệ trước đó).

Phần gần đúng

Do tính toán không gian tỷ lệ Gaussian và biểu đồ của hướng dốc là dài, nên một ý tưởng tốt (được các tác giả của SURF chọn) để thay thế các tính toán này bằng các phép tính gần đúng nhanh.

Các tác giả nhận xét rằng các Gaussian nhỏ (giống như các Gaussian được sử dụng trong SIFT) có thể được xấp xỉ bằng các tích phân vuông (còn được gọi là mờ hộp ). Các trung bình hình chữ nhật này có thuộc tính đẹp rất nhanh để có được nhờ thủ thuật hình ảnh tích hợp.

Hơn nữa, không gian tỷ lệ Gaussian thực sự không được sử dụng cho mỗi se , nhưng để ước tính một Laplacian của Gaussian (bạn có thể tìm thấy điều này trong bài báo SIFT). Do đó, bạn không chỉ cần hình ảnh mờ Gauss, mà là dẫn xuất và sự khác biệt của chúng. Vì vậy, bạn chỉ cần đẩy thêm một chút ý tưởng xấp xỉ Gaussian bằng một hộp: trước tiên hãy lấy Gaussian nhiều lần nếu cần, sau đó xấp xỉ mỗi thùy bằng một hộp có kích thước chính xác. Cuối cùng bạn sẽ kết thúc với một bộ tính năng Haar.

Tăng thêm 2

Đây chỉ là một tạo tác thực hiện, như bạn đã đoán. Mục tiêu là có một pixel trung tâm. Bộ mô tả tính năng được tính toán liên quan đến trung tâm của bản vá hình ảnh sẽ được mô tả.

Trung trung

$\sum_{\text{all pix in column}} \partial x = A$ $\sum_{\text{all pix in column}} \partial x = -A$ $\sum \partial x$

con số kỳ diệu

$\sigma = 1.2$ $\sigma = 1.2$

— sansuiso
nguồn

Cảm ơn lời giải thích, nó đã xóa một số thứ, cho tôi xem liệu có ai có một sự hiểu biết phức tạp hơn.

— motiur

Tôi đã chỉnh sửa câu trả lời liên quan đến câu hỏi mới của bạn.

— sansuiso

Oh yeah cảm ơn, đánh giá cao. Bài báo rất dài, rất nhiều thứ cùng một lúc.

— motiur

Quan tâm để xem chỉnh sửa mới nhất của tôi?

— motiur

Đó là sự pha trộn của kiến thức được chia sẻ chung (Gaussian nhỏ được xấp xỉ bằng cách làm mờ hộp), thử nghiệm (kích thước tối thiểu / tối đa của các đối tượng quan tâm trong hình ảnh trong thế giới thực) và toán học (được cung cấp kích thước bản vá ban đầu, hình chữ nhật tính toán và Gaussian phù hợp với) .

— sansuiso

Để xác định các điểm quan tâm tiềm năng, hàm khác biệt của hàm Gaussian (DOG) thường được sử dụng để xử lý hình ảnh, do đó làm cho nó bất biến theo tỷ lệ và định hướng.

Trong SIFT, các kim tự tháp hình ảnh được thiết lập bằng cách lọc từng lớp với DOG tăng sigmagiá trị và lấy chênh lệch.

Mặt khác, SURF áp dụng xấp xỉ nhanh hơn các dẫn xuất một phần Gaussian bậc hai với Laplacian của Gaussian (LoG) và các bộ lọc vuông có kích thước khác nhau (9 * 9, 15 * 15, ...). Chi phí tính toán độc lập với kích thước bộ lọc. Không có lấy mẫu (thay đổi sigma) cho các mức cao hơn trong kim tự tháp, mà chỉ có kích thước tăng kích thước bộ lọc dẫn đến có hình ảnh có cùng độ phân giải.

BIÊN TẬP

Một lưu ý thêm: các tác giả trong bài báo của bạn hơn nữa đơn giản hóa đạo hàm bậc hai Gaussian đẳng cấp 4 hướng (x, y, xy, yx) với hạt nhân [1 -2 1], [1 -2 1]', [1 -1;-1 1], và [-1 1;1 -1]. Khi kích thước bộ lọc tăng lên, bạn chỉ cần mở rộng các vùng nhân đơn giản hóa để đạt được vùng lớn hơn. Và nó tương đương với DOG với các tỷ lệ khác nhau (đường cong LoG có cùng hình dạng với DOG và kích thước bộ lọc làm cho chiều rộng của chúng cũng bằng nhau).

— lennon 310
nguồn