Tôi hiện đang làm việc trên CBIR bằng cách sử dụng Cây thành phần , đây là một ý tưởng tương đối mới. Một số lợi thế dự kiến của việc sử dụng Cây thành phần để mô tả hình ảnh sẽ là:
- Biểu diễn Cây thành phần của một hình ảnh sẽ không phụ thuộc quá nhiều vào các biến dạng (thậm chí là chiếu) vào hình ảnh
- Kiểm tra các cấp độ khác nhau của cây sẽ cho phép so sánh và vận hành đến một mức độ chi tiết khác nhau
- Phân biệt đối xử và mô tả nên hoạt động tốt hơn so với các kỹ thuật hiện tại trên hình ảnh có kết cấu thấp.
Khi tôi mới bắt đầu với nghiên cứu liên quan đến chủ đề này, tôi chỉ có một ý tưởng mơ hồ về mục tiêu của mình: biểu diễn hình ảnh với Cây thành phần và sau đó so sánh các Cây thành phần đã nói, hoặc trực tiếp bằng cách tìm một đại diện được vector hóa. Tôi có thể sẽ có thể nói nhiều hơn trong một vài tuần (hoặc vài tháng), nhưng hiện tại tôi chỉ có thể cung cấp danh sách các giấy tờ được đề xuất cho tôi dưới dạng giới thiệu về Cây thành phần (tôi chưa đọc chúng):
Tôi có thể cập nhật câu trả lời và nếu tôi tìm thấy điều gì đó có liên quan.
Ngoài ra, nếu mục tiêu của bạn là, theo cách nào đó, khớp chính xác hơn các vùng hình ảnh thay vì chỉ các điểm , bởi vì các vùng có thể phân biệt đối xử hơn, có một gợi ý hay trong J. Sivic và A. Zisserman: "Video Google: Truy xuất văn bản Tiếp cận đối tượng phù hợp trong video " .
Tôi đang đề cập đến phần liên quan đến tính nhất quán không gian , trong đó một nhóm khớp giữa các điểm tính năng chỉ được chấp nhận nếu các điểm tính năng giữ cấu hình không gian tương tự trong cả hai hình ảnh. Do đó, kết hợp không chỉ phụ thuộc vào loại tính năng được trích xuất (DoG, MSER, ...) hoặc bộ mô tả (SIFT), mà còn xem xét môi trường xung quanh rộng hơn của một điểm tính năng, làm cho nó (ít nhất là một chút) khu vực phụ thuộc.