Kiến trúc mạng thần kinh để xác định các bản sao hình ảnh


7

Tôi có một bộ sưu tập hình ảnh lớn và muốn xác định những hình ảnh trong bộ sưu tập đó xuất hiện để sao chép những hình ảnh khác từ bộ sưu tập.

Để cho bạn biết về các loại cặp hình ảnh mà tôi muốn phân loại là khớp, vui lòng xem xét các ví dụ sau:

nhập mô tả hình ảnh ở đây

Tôi đã phân loại tay khoảng 0,25M cặp hình ảnh phù hợp và bây giờ muốn sử dụng những hình ảnh được gắn nhãn bằng tay đó để huấn luyện một mô hình mạng thần kinh. Tôi chỉ không chắc kiến ​​trúc nào sẽ phù hợp lý tưởng cho nhiệm vụ này.

Ban đầu tôi nghĩ Mạng Xiêm có thể phù hợp, vì chúng đã được sử dụng cho các nhiệm vụ tương tự, nhưng đầu ra từ các phân loại đó có vẻ phù hợp hơn với việc tìm các hình khác nhau của cùng một đối tượng (không phải là thứ tôi muốn), thay vì các bản in khác nhau của cùng một hình (đó là những gì tôi muốn).

Nếu bất cứ ai có thể giúp đề xuất các bài báo hoặc kiến ​​trúc phù hợp lý tưởng để xác định hình ảnh được cung cấp dữ liệu đào tạo tôi đã chuẩn bị, tôi sẽ rất biết ơn về bất kỳ hiểu biết nào bạn có thể cung cấp.


"nhưng đầu ra từ các bộ phân loại [mạng Xiêm] có vẻ phù hợp lý tưởng hơn để tìm các hình khác nhau của cùng một đối tượng" - Tôi thực sự nghĩ rằng mạng Xiêm sẽ hoạt động hoàn hảo. Họ học những gì bạn bảo họ học. Những người khác đã khiến họ học "những hình tượng khác nhau", nhưng bạn có thể khiến họ học được sự trùng lặp hình ảnh.
kbrose

Tôi vừa phát hiện ra một bài báo về DEep Local Feature (DELF) kết hợp phân tích dựa trên các điểm chính với các mạng thần kinh tích chập để thu được độ tương tự của hình ảnh. Google đã tạo ra một máy tính xách tay Colab mẫu thực hiện DELF .
duhaime

Chỉ cần một suy nghĩ, những gì về bộ tự động biến đổi và đo lỗi tái cấu trúc? Tôi nghĩ rằng nó sẽ hoạt động rất tốt cho hai bên trái, nhưng tôi không chắc về các ví dụ bên phải. Đối với những người, tôi nghĩ rằng một cách tiếp cận địa phương là cần thiết.
ldmtwo

Câu trả lời:


1

Bạn cần đọc về chức năng mất bộ ba . Hàm mất bộ ba được nhúng kết quả từ một mạng, xử lý 3 hình ảnh bằng một mạng (2 tương tự và 1 không tương tự) cho một bước: nhập mô tả hình ảnh ở đây

Sau khi mất tính toán như: nhập mô tả hình ảnh ở đây

Để biết thêm chi tiết đọc bài báo từ các tác giả mất ba.

Cũng có thể giúp PSNR , nhưng đây không phải là Deep Learning.


Mất bộ ba là một gợi ý tốt, nhưng câu trả lời chỉ liên kết là phù hợp xấu cho trao đổi ngăn xếp. Bạn có thể giải thích thêm về sự mất mát của bộ ba là gì và tại sao nó sẽ hoàn thành những gì OP muốn?
kbrose

"Liên kết đến các tài nguyên bên ngoài được khuyến khích, nhưng vui lòng thêm ngữ cảnh xung quanh liên kết để người dùng đồng nghiệp của bạn sẽ biết được đó là gì và tại sao lại ở đó. Luôn trích dẫn phần có liên quan nhất của một liên kết quan trọng, trong trường hợp trang web mục tiêu không thể truy cập được hoặc ngoại tuyến vĩnh viễn. " - datascience.stackexchange.com/help/how-to-answer
kbrose

@kbrose Tôi có thể sao chép-dán từ một liên kết. Bạn có nghĩ rằng tôi cần phải làm điều đó? Hoặc bạn yêu cầu TL; DR?
toodef

Loại bỏ downvote của tôi. Cảm ơn bạn đã thêm một số bối cảnh @toodef.
kbrose

1
Chắc chắn, tôi đánh giá cao quan điểm đó. Tôi đoán tôi có nhiều ý kiến ​​rằng nếu bạn không có thời gian thì hãy bình luận.
kbrose

-1

Nếu các hình ảnh tương tự như bạn đã đăng, bạn có thể đi với chỉ số Tương tự cấu trúc cung cấp đầu ra trong phạm vi -1 đến 1. bất kỳ điều gì nhiều hơn 0,9 đều có thể được coi là tương tự.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.