Danh sách các tính năng hình ảnh có thể để phục hồi hình ảnh dựa trên nội dung


15

Tôi đang cố gắng tìm một danh sách các tính năng hình ảnh có thể có như màu sắc, các cạnh được định hướng và để đo khả năng sử dụng của chúng trong trường hợp tìm thấy các đối tượng giống nhau / tương tự trong hình ảnh. Có ai biết một danh sách như vậy hoặc ít nhất là một số tính năng?


Đây là ngoài chủ đề, nhưng CBIR có thể trích xuất tính năng từ bộ dữ liệu Open Image không? Có thể trích xuất tính năng của một hình ảnh mặc dù hình ảnh không được lưu trong đĩa cục bộ?
Quix0te

Câu trả lời:


25

Bản thân cánh đồng quá rộng lớn. Vì vậy, tôi nghi ngờ bạn có thể có một danh sách đầy đủ ở đây. Tuy nhiên, MPEG 7 là một trong những nỗ lực chính trong việc chuẩn hóa khu vực này. Vì vậy, những gì được bao gồm ở đây không phải là phổ quát - nhưng ít nhất là chính.

Dưới đây là một số tính năng chính được xác định trong MPEG7 (Tôi thực sự chỉ có thể nói về Mô tả trực quan mà không phải người khác thấy điều này cho phạm vi đầy đủ).

Có 4 bản mô tả trực quan:

1. Mô tả màu bao gồm:
Màu chủ đạo,
Bố cục màu (về cơ bản là màu chính trên cơ sở từng khối)
Màu có thể mở rộng (về cơ bản là biểu đồ màu),
Cấu trúc màu (về cơ bản là biểu đồ màu cục bộ)
và không gian màu để làm cho mọi thứ có thể tương tác.

2. Trình mô tả kết cấu (xem thêm phần này ) bao gồm: Trình
mô tả duyệt kết cấu - định nghĩa độ chi tiết / độ thô, tính đều đặn và hướng. Mô tả kết cấu đồng nhất - dựa trên ngân hàng bộ lọc Gabor. và
biểu đồ cạnh

3. Mô tả hình dạng bao gồm:
Mô tả dựa trên vùng là thuộc tính vô hướng của hình dạng đang được xem xét - chẳng hạn như diện tích, độ lệch, v.v.
Đường viền dựa trên đó nắm bắt các đặc điểm hình dạng đặc trưng thực tế và
mô tả 3D

4. Mô tả chuyển động cho
chuyển động của máy quay video (Thông số chuyển động của camera 3 chiều)
Quỹ đạo chuyển động (của các đối tượng trong cảnh) [ví dụ: được trích xuất bằng thuật toán theo dõi] Chuyển động tham số (ví dụ: vectơ chuyển động, cho phép mô tả chuyển động của cảnh. Nhưng nó có thể là mô hình phức tạp hơn trên các đối tượng khác nhau).
Hoạt động nhiều hơn một mô tả ngữ nghĩa.


MPEG 7 không định nghĩa "Cách trích xuất chúng" - nó chỉ định nghĩa ý nghĩa của chúng và cách thể hiện / lưu trữ chúng. Vì vậy, nghiên cứu tồn tại về cách trích xuất và sử dụng chúng.

Đây là một bài báo tốt cung cấp cái nhìn sâu sắc trong chủ đề này.

Nhưng vâng, nhiều trong số các tính năng này khá cơ bản và có thể được nghiên cứu nhiều hơn sẽ tạo ra bộ tính năng phức tạp hơn (và phức tạp).


8

Ok tôi nghĩ rằng tôi đã tìm thấy một danh sách phù hợp bằng cách chỉ cần tìm kiếm thêm một chút. Có một bài báo của Deselaers vv al. đó là những gì tôi đang tìm kiếm!


6

Ngoài ra còn có một cuốn sách gói một tập hợp các giấy tờ liên quan đến chủ đề này. Nó được gọi là Nguyên tắc của Truy xuất thông tin thị giác .


Google về những cuốn sách không tiết lộ nhiều đánh giá tích cực. Nhiều khiếu nại hơn là tích cực thực sự. Bạn vẫn nghĩ rằng nó là một tài liệu tham khảo tốt, và nếu vậy, có lẽ bạn có thể cho chúng tôi biết khi nào nó hữu ích cho bạn? :)
Penelope

Lý do chính để đặt nó ở đây không phải là tôi đã sử dụng nó nhiều, nhưng giáo viên của tôi đã khuyến nghị nó (và tôi đánh giá cao ý kiến ​​của anh ấy). Google về nó cho thấy rằng nó thực sự là một bó giấy tờ, và không thực sự là một cuốn sách. Nó cũng cho thấy nó khá cũ, nhưng là một trong số ít những cuốn sách về chủ đề này. Do đó, tôi nghĩ rằng câu trả lời của tôi vẫn phù hợp.
Geerten

3

@Dipan Mehta bao gồm các mô tả tính năng có thể được sử dụng. Bây giờ hãy để tôi thử và bao quát mặt khác của đồng tiền bằng cách đề cập đến một số phương pháp phát hiện tính năng trích xuất các tính năng tốt cho CBIR .

Tài liệu tham khảo của tôi cho nghiên cứu CBIR của tôi là các bài báo của Sivic, ZissermanNister, Stewenius . Có nhiều bài báo hiện tại từ các tác giả này, nhưng chúng trình bày tất cả các ý tưởng có liên quan.

Họ cho rằng để thực hiện một phương pháp CBIR hiệu quả , nên sử dụng các tính năng của các thuộc tính bổ sung :

  • Hình dạng Các khu vực được điều chỉnh - có xu hướng tập trung vào các tính năng giống như góc

    ví dụ: Góc Harris, Harris đa quy mô, DoG (Sự khác biệt của Gaussian - nhưng cũng đáp ứng các cạnh!)

  • Các vùng ổn định tối đa - có xu hướng tập trung vào các tính năng giống như blob

    ví dụ: MSER (Vùng cực đoan ổn định tối đa), DoG

Đáng ngạc nhiên, Wikipedia cũng cung cấp một phân loại tốt các loại tính năng (trình phát hiện), nêu rõ loại khu vực sở thích mà họ phát hiện cho hầu hết các tính năng được sử dụng rộng rãi hiện tại:

  • máy dò cạnh
  • máy dò góc
  • máy dò blob
  • máy dò sườn núi

Hầu hết các bài viết hiện tại tôi đã đọc thề rằng mô tả Sift (biến đổi tính năng bất biến tỷ lệ) đá và đủ mạnh để sử dụng kết hợp với các trình phát hiện tính năng được chọn. Tài liệu tham khảo bao gồm:

  • đã cung cấp liên kết
  • Mikolajchot, Schmid liên quan đến việc so sánh các mô tả địa phương
  • Dahl đánh giá kết hợp máy dò-mô tả

Ghi chú! rằng các giấy tờ này không xử lý nghiêm ngặt với CBIR nhưng được sử dụng làm tài liệu tham khảo trong các tác phẩm liên quan đến CBIR .

Cuối cùng, người ta sẽ đề cập rằng các phương pháp CBIR thành công không chỉ phụ thuộc vào các trình phát hiện tính năngmô tả được sử dụng, mà còn:

  • một cấu trúc tìm kiếm hiệu quả (định lượng các tính năng trực quan)
  • cách để xây dựng mô tả hình ảnh - dựa trên các tính năng hình ảnh phổ biến (mô tả cục bộ) hoặc bằng cách so sánh các mô tả hình ảnh toàn cầu (đây là một ý tưởng rất mới, vì vậy hiện tại không có tài liệu tham khảo nào)
  • đo khoảng cách giữa các mô tả hình ảnh

Ngoài ra, tôi đã trả lời một số câu hỏi liên quan đến CBIR trên DSPstackoverflow , cả hai đều được kèm theo tài liệu tham khảo và giải thích và tôi nghĩ chúng có thể có liên quan, vì vậy bạn có thể muốn xem:

  • DSP: 1
  • stackoverflow: 1 , 2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.