Tại sao chúng ta sử dụng mô tả keypoint?

Tôi mới nghiên cứu về SURF và tôi sẽ thực hiện nó, nhưng tôi vẫn không hiểu tại sao chúng tôi sử dụng các mô tả.

Tôi hiểu các điểm chính là gì và mục đích của chúng, nhưng khi chúng tôi trích xuất các điểm chính hơn tại sao chúng ta cần sử dụng các mô tả? Tầm quan trọng và vai trò của họ trong công nhận là gì?

image-processing computer-vision opencv

— ARG
nguồn

Này, bạn có muốn biết cụ thể về SURF không, hoặc câu hỏi của bạn tổng quát hơn, "tại sao chúng ta cần mô tả cho các điểm chính?" (chỉ lấy cảm hứng từ việc tìm hiểu về SURF)

— Penelope

@penelope Câu hỏi của tôi là khái quát hơn về mô tả

— ARG

Tôi hy vọng bạn không bận tâm rằng tôi đã làm cho câu hỏi của bạn chung chung hơn trước khi trả lời.

— Penelope

Một điều quan trọng cần hiểu là sau khi trích xuất các điểm chính, bạn chỉ có được thông tin về vị trí của chúng và đôi khi là vùng phủ sóng của chúng (thường được xấp xỉ bởi một hình tròn hoặc hình elip) trong hình ảnh. Mặc dù thông tin về vị trí điểm chính đôi khi có thể hữu ích, nhưng nó không nói nhiều về bản thân các điểm chính.

Tùy thuộc vào thuật toán được sử dụng để trích xuất điểm khóa (SIFT, góc Harris, MSER), bạn sẽ biết một số đặc điểm chung của các điểm khóa được trích xuất (ví dụ: chúng tập trung quanh các đốm màu, cạnh, góc nổi bật ...) nhưng bạn sẽ không biết khác nhau như thế nào hoặc tương tự một điểm chính là khác.

Đây là hai ví dụ đơn giản trong đó chỉ khu vực vị trí và điểm chính sẽ không giúp chúng tôi:

Nếu bạn có hình ảnh A (của một con gấu trên nền trắng) và một hình ảnh B khác, bản sao chính xác của A nhưng được dịch cho một vài pixel: các điểm chính được trích xuất sẽ giống nhau (trên cùng một phần của con gấu đó). Hai hình ảnh này phải được công nhận là giống nhau hoặc tương tự nhau.

Nhưng, nếu thông tin duy nhất chúng tôi có là vị trí của họ và điều đó đã thay đổi do bản dịch, bạn không thể so sánh các hình ảnh.
Nếu bạn có hình ảnh A (giả sử, về con vịt lần này) và hình ảnh B khác, chính xác là con vịt giống như trong A ngoại trừ kích thước gấp đôi: các điểm chính được trích xuất sẽ giống nhau (cùng một phần của con vịt). Đó cũng là những hình ảnh tương tự (tương tự).

Nhưng tất cả các kích thước (khu vực) của chúng sẽ khác nhau: tất cả các điểm chính từ hình ảnh B sẽ gấp đôi kích thước của các hình ảnh từ hình ảnh A.

Vì vậy, đây là mô tả : chúng là cách để so sánh các điểm chính. Họ tóm tắt, ở định dạng vectơ (có độ dài không đổi) một số đặc điểm về các điểm chính. Ví dụ, nó có thể là cường độ của chúng theo hướng định hướng rõ rệt nhất của chúng. Đó là gán một mô tả số cho khu vực của hình ảnh mà điểm chính đề cập đến.

Một số điều quan trọng cho mô tả là:

họ nên độc lập với vị trí quan trọng

Nếu cùng một điểm khóa được trích xuất tại các vị trí khác nhau (ví dụ do dịch), bộ mô tả phải giống nhau.
họ nên mạnh mẽ chống lại sự biến đổi hình ảnh

Một số ví dụ là thay đổi độ tương phản (ví dụ: hình ảnh của cùng một địa điểm trong một ngày nắng và nhiều mây) và thay đổi phối cảnh (hình ảnh của một tòa nhà từ giữa bên phải và giữa bên trái, chúng tôi vẫn muốn nhận ra đó là cùng một tòa nhà) .

Tất nhiên, không có mô tả nào là hoàn toàn mạnh mẽ chống lại tất cả các biến đổi (cũng không chống lại bất kỳ biến đổi nào nếu nó mạnh, ví dụ như thay đổi lớn trong quan điểm).

Các mô tả khác nhau được thiết kế để mạnh mẽ chống lại các biến đổi khác nhau đôi khi trái ngược với tốc độ cần thiết để tính toán chúng.
họ nên độc lập quy mô

Các mô tả nên có quy mô trong tài khoản. Nếu phần "nổi bật" của một điểm chính là một đường thẳng đứng 10px (bên trong một vùng hình tròn có bán kính 8px) và phần nổi bật của một đường thẳng đứng khác là 5px (bên trong một vùng hình tròn có bán kính 4px) - những điểm chính này nên được chỉ định mô tả tương tự.

Bây giờ, bạn đã tính toán các mô tả cho tất cả các phím bấm, bạn có một cách để so sánh các điểm chính đó . Đối với một ví dụ đơn giản về khớp hình ảnh (khi bạn biết hình ảnh là của cùng một đối tượng và muốn xác định các phần trong các hình ảnh khác nhau mô tả cùng một phần của cảnh hoặc muốn xác định thay đổi phối cảnh giữa hai hình ảnh) , bạn sẽ so sánh mọi mô tả điểm chính của một hình ảnh với mọi mô tả điểm chính của hình ảnh kia. Vì các mô tả là vectơ của các số, bạn có thể so sánh chúng với một cái gì đó đơn giản như khoảng cách Euclidian . Dĩ nhiên, có một số khoảng cách phức tạp hơn có thể được sử dụng như một thước đo tương tự. Nhưng cuối cùng, bạn sẽ nói rằngcác điểm chính có mô tả có khoảng cách nhỏ nhất giữa chúng là khớp , ví dụ: "địa điểm" hoặc "các phần của đối tượng" trong các hình ảnh khác nhau.

Để sử dụng phức tạp hơn các điểm chính / mô tả, bạn nên xem câu hỏi này - đặc biệt là "phương pháp tiếp cận cục bộ cấp thấp" trong câu trả lời của tôi và phương pháp "Bag-of-words" trong câu trả lời @Maurits . Ngoài ra, các liên kết được cung cấp trong những câu trả lời là hữu ích.

— dương vật
nguồn

câu trả lời tốt nhất và giải thích tốt đẹp, sử dụng tính năng thuật ngữ giống như mô tả? cả hai giống nhau hay khác nhau? và định hướng thuật ngữ có nghĩa là gì trong lướt sóng?

— ARG

Thuật ngữ "tính năng" giống như "keypoint" - đó là một điểm nổi bật trong hình ảnh. Bộ mô tả sau đó là "bộ mô tả điểm chính" hoặc "bộ mô tả tính năng". Thật không may, tôi không biết nhiều về SURF, đó là lý do tại sao tôi hỏi bạn có muốn biết về mô tả nói chung hay cụ thể về SURF không. Tôi biết rằng đối với SIFT, định hướng là rất quan trọng.

— Penelope

Định hướng thuật ngữ không cụ thể được sử dụng cho SURF, nó cũng được sử dụng trong SIFT, tôi chỉ muốn biết về nó, nó là gì

— ARG

Bạn tính toán "định hướng chính" của điểm chính, dựa trên độ dốc cục bộ. Sau đó, hướng đó trở thành "lên" cho điểm chính khi tính toán độ dốc để đạt được bất biến xoay vòng. Đối với SIFT, bạn có một lời giải thích hay trên wikipedia

— penelope

:) câu hỏi của tôi là định hướng là gì? không phải trên sàng hoặc lướt

— ARG

Hãy nghĩ về người mô tả lý tưởng để hiểu ý tưởng. Một mô tả lý tưởng là một chức năng từ không gian pixel đến một số không gian khác, sao cho cùng một đối tượng có cùng kết quả , trong khi các đối tượng khác nhau có kết quả khác nhau.

Ví dụ: nếu bạn chụp hai ảnh với cùng một đối tượng nhưng với mức phơi sáng khác nhau, bạn sẽ có được một phiên bản hình ảnh được nhân lên. Một mô tả sẽ lấy các pixel và chuẩn hóa chúng theo mức độ lệch trung bình và độ lệch chuẩn của chúng sẽ có cùng kết quả, nói rằng hai đối tượng này giống nhau. Điều đó là tốt, bởi vì nó cho phép chúng tôi kết hợp chính xác

nhập mô tả hình ảnh ở đây

Vì vậy, mô tả của bạn là cần thiết để khớp chính xác cùng các đối tượng.

— Andrey Rubshtein
nguồn