Phát hiện đối tượng one-shot với Deep Learning


7

Trong những năm gần đây, lĩnh vực phát hiện đối tượng đã trải qua một bước đột phá lớn sau khi phổ biến mô hình Deep Learning. Các cách tiếp cận như YOLO, SSD hoặc FasterRCNN giữ trạng thái hiện đại trong nhiệm vụ chung là phát hiện đối tượng [ 1 ].

Tuy nhiên, trong kịch bản ứng dụng cụ thể mà chúng tôi chỉ được cung cấp một hình ảnh tham chiếu cho đối tượng / logo mà chúng tôi muốn phát hiện, các phương pháp dựa trên học tập sâu dường như ít được áp dụng và các mô tả tính năng cục bộ như SIFT và SURF xuất hiện dưới dạng thay thế phù hợp hơn, với chi phí triển khai gần như bằng không.

Câu hỏi của tôi là, bạn có thể chỉ ra một số chiến lược ứng dụng (tốt nhất là với các triển khai có sẵn chứ không chỉ là các tài liệu nghiên cứu mô tả chúng) trong đó Deep Learning được sử dụng thành công để phát hiện đối tượng chỉ với một hình ảnh đào tạo cho mỗi lớp đối tượng?

Kịch bản ứng dụng ví dụ:

Hình ảnh đào tạo / tham khảo duy nhất Hình ảnh mẫu nơi chúng tôi phải phát hiện logo

Trong trường hợp này, SIFT phát hiện thành công logo trong hình ảnh:

Phát hiện thành công với SIFT


FaceID, nơi được cung cấp một bức ảnh duy nhất mà bạn nhận ra mọi người
Tim

Câu trả lời:


3

Hóa ra, chỉ cần đào tạo một mạng phát hiện đối tượng thông thường với một loạt các dữ liệu tăng cường sẽ giúp bạn có một số kết quả tốt.

Tôi lấy logo "coca cola" từ bài đăng của bạn và thực hiện một số gia tăng ngẫu nhiên trên nó. Sau đó, tôi đã tải xuống 10000 hình ảnh ngẫu nhiên từ flickr và dán ngẫu nhiên logo lên những hình ảnh này. Tôi cũng đã thêm các vùng màu đỏ ngẫu nhiên vào hình ảnh để mạng không biết rằng bất kỳ đốm đỏ nào là đối tượng hợp lệ. Một số mẫu từ dữ liệu đào tạo của tôi:

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Sau đó tôi đã đào tạo một mô hình RCNN trên bộ dữ liệu này. Dưới đây là một số hình ảnh thiết lập thử nghiệm tôi tìm thấy trên google hình ảnh, và mô hình có vẻ làm khá tốt.

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây

Kết quả không hoàn hảo, nhưng tôi đã tát nó trong khoảng 2 giờ. Tôi hy vọng với một chút cẩn thận hơn với việc tạo dữ liệu và với việc đào tạo mô hình, bạn có thể nhận được kết quả tốt hơn nhiều.

Tôi nghĩ rằng các ý tưởng từ các bài báo như Học cách tạo mô hình đuôi có thể được sử dụng để cho phép học các loại đối tượng mới chỉ bằng một hoặc một vài ví dụ, thay vì cần tạo ra một loạt dữ liệu như tôi đã làm, nhưng tôi không biết họ làm bất kỳ thí nghiệm với phát hiện đối tượng.


Vâng, đó là cách tiếp cận chúng tôi đã áp dụng trong một thời gian. Chỉ muốn biết liệu điều này đã được áp dụng trong tài liệu trước đây chưa ... Cảm ơn câu trả lời của bạn!
Daniel López
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.