Để có được một máy tính phát hiện và cung cấp hộp giới hạn hoặc khoanh tròn xung quanh khu vực chú ý trực quan trong ảnh, phải xác định cơ sở chú ý. Sau đó, phương pháp để có được hệ thống máy tính để đưa ra lựa chọn dựa trên cơ sở đó có thể được chọn. Điều đầu tiên đầu tiên.
Đó có phải là một khuôn mặt hoặc cơ thể hoặc nhân vật trò chơi sẽ là đối tượng quan tâm? Nó sẽ là đối tượng năng động nhất trong khung về mặt chuyển động? Nếu đó là một người, có phải luôn luôn là cùng một người? Trong cả hai trường hợp, khuôn mặt của họ sẽ được tiếp xúc với góc của máy ảnh? Chỉ có những bức ảnh tĩnh, hay những hình ảnh sẽ là khung hình trong một bộ phim?
Khi bạn biết BẠN sẽ phân biệt đối tượng cần sự chú ý với các đối tượng và nền khác như thế nào, thì bạn có thể bắt đầu xem máy tính có thể mô phỏng nhận dạng đó như thế nào. Khi đào tạo một mạng lưới sâu bao gồm các hạt tích chập (được gọi là CNN hoặc mạng nơ ron tích chập) và có thể là các tế bào bộ nhớ ngắn hạn (LSTM), có các giai đoạn để nhận biết.
Thông thường các cạnh của sự vật được phát hiện đầu tiên. Trong phim, chuyển động của các cạnh được theo dõi như các tính năng của hình ảnh. Các yếu tố trong hình ảnh xác định loại đối tượng nào là đối tượng thứ hai. Ví dụ, một món đồ chơi có thể được phát hiện bằng cách nhựa phản chiếu ánh sáng và các loại màu sắc và hình dạng phổ biến cho đồ chơi. Một khuôn mặt có thể được nhận ra đầu tiên bằng cách xác định mắt, mũi, miệng, cằm và tai.
Sau khi các bộ phận được xác định, sau đó toàn bộ các đối tượng có thể được xác định thông qua một giai đoạn khai thác tính năng khác. Các hệ thống tầm nhìn tuân theo cùng các nguyên tắc nhận biết cơ bản mà hệ thống thị giác của con người chúng ta sử dụng.
Có nhiều khung và thư viện để trợ giúp cho các tác vụ này, nhưng để sử dụng chúng, điều quan trọng là phải có một bức tranh chung về quy trình và làm rõ những gì sẽ đặt các đối tượng quan trọng ra khỏi các đối tượng khác có thể tương tự hoặc hoàn toàn khác nhau để sự chú ý có thể được tập trung theo cách bạn muốn.
(hmin,vmin);(hmax,vmax)
Đó là trạng thái của nghệ thuật. Không có SDK cấp cao nào cho phép người ta ra lệnh cho máy tính tìm mục quan trọng nhất trong khung mà không cần làm rõ ý nghĩa của việc đó và các hoạt động đào tạo để dạy phần mềm tìm ra điều bạn quyết định là quan trọng dựa trên một số tiêu chí. Dù sao cũng chưa.