Tôi có hơn 10000 hình ảnh trong đó khoảng 2000 là trùng lặp ở các định dạng khác (như trong JPEG, PNG, GIF). Cả hai con số này đang tăng lên mỗi ngày. Tôi cần phải xóa những bản sao đó và tôi phải biết cách tìm chúng trước.
Suy nghĩ đầu tiên của tôi là kiểm tra một pixel hình ảnh và tìm các hình ảnh khác có cùng pixel màu trong cùng tọa độ. Nhưng tùy chọn này không phải lúc nào cũng hoạt động. Hãy nói rằng tôi tìm kiếm một bản sao. Đối với đối tượng có thể tìm kiếm, tôi chọn tệp PNG 8 bit. Nó sẽ tìm thấy tất cả các bản sao của hình ảnh đó, nhưng chỉ có PNG 8 bit, đôi khi là GIF 8 bit và hiếm khi là JPEG (vì tôi cho rằng thuật toán hình ảnh là gì?).
Suy nghĩ thứ hai của tôi là sao chép tất cả những hình ảnh đó và tô màu lại chúng trong một bảng màu hai màu nghiêm ngặt (giả sử đen trắng) và thực hiện quét tương tự như đã nêu ở trên. Một lần nữa, hình ảnh JPEG không giống 100% với định dạng PNG hoặc GIF (lý do tương tự như trên?).
Ý nghĩ thứ ba là giảm tỷ lệ phần trăm về mức độ quen thuộc của hình ảnh và tăng mức độ màu sắc có thể thay đổi, dẫn đến loại bỏ hình ảnh không mong muốn ...
Có suy nghĩ gì không?