Sử dụng AI hoặc Mạng thần kinh để phát hiện logo

10

Tôi đang cố gắng phát hiện logo kênh TV bên trong tệp video, vì vậy chỉ cần cung cấp một .mp4video đầu vào , phát hiện xem logo đó có trong một khung cụ thể hay không, nói khung đầu tiên hay không.

Chúng tôi có logo đó trước (mặc dù có thể không phải là% 100 cùng kích thước) và vị trí luôn được cố định.

Tôi đã có một cách tiếp cận dựa trên mô hình phù hợp. Nhưng điều đó đòi hỏi mẫu phải có% 100 cùng kích thước. Tôi muốn sử dụng Deep Learning và Mạng nơ-ron để đạt được điều đó. Làm thế nào tôi có thể làm điều đó? Tôi tin rằng CNN có thể có hiệu quả cao hơn?

— Tina J
nguồn

1

Chào mừng bạn đến với AI! Chủ đề tuyệt vời.

— DukeZhou

1

@DukeZhou Tnx! Tôi hy vọng tôi nhận được câu trả lời thích hợp với con trỏ đến một số mã mẫu.

— Tina J

5

Để thực hiện nhận dạng hình ảnh, bạn phải tìm cách thể hiện một hình ảnh với các tính năng nhất định.

Một trong những đặc điểm xác định của thuật toán nhận dạng hình ảnh tốt là khả năng phát hiện các vùng nổi bật, đó là các vùng chứa nhiều thông tin nhất

Hiện tại có rất nhiều sự chú ý về việc học sâu để phân loại hình ảnh dựa trên nội dung tại thời điểm này. Bạn có thể đạt được kết quả tốt bằng cách triển khai học sâu có ba hoặc nhiều lớp CNN trong đó mỗi lớp chịu trách nhiệm trích xuất một hoặc nhiều tính năng của hình ảnh.

— Seth Simba
nguồn

Cảm ơn. Bản thân tôi không phải là một anh chàng CNN. Nhưng có con trỏ nào đến mã nguồn đưa ra hình ảnh logo không, nó có thể phát hiện nếu nó tồn tại hay không?

— Tina J

3

Này, vui lòng xem DeepLogo trên Github của Satoj Kovic. Nó được viết trên Python và sử dụng CNN để nhận diện logo thương hiệu. Tôi đã đăng liên kết dưới đây. Chúc mừng. github.com/satojkovic/DeepLogo

— Seth Simba

3

Bởi vì đó là đầu vào video và logo thường đứng yên vì chúng được xếp chồng lên các khung hình trực tiếp hoặc được ghi bằng phần cứng hoặc phần mềm, nên nhiệm vụ không khó. Logo cũng thường có bảng màu hạn chế và các cạnh sắc nét. Các tính năng của phông chữ của họ, khi họ đánh vần các từ hoặc từ viết tắt thường cũng nhất quán. Đây là những điểm chung có thể được khai thác trong học tập sâu.

Cũng như câu hỏi tương tự khác được đăng bởi tác giả này, một sự kết hợp của các lớp LSTM và CNN có thể được đào tạo để tìm và cách ly logo. Với một số thủ thuật hình ảnh, hình ảnh đằng sau logo cũng có thể được xây dựng lại với độ chính xác và độ tin cậy hợp lý từ các pixel xung quanh logo thông qua một bộ kỹ thuật học tập tương tự.

Đây là một vài điểm khởi đầu cho sự phát triển.

— Douglas Daseeco
nguồn