Phát hiện vùng chú ý trực quan trong ảnh


9

Tôi đang cố gắng phát hiện khu vực chú ý trực quan trong một hình ảnh nhất định và cắt hình ảnh vào khu vực đó. Ví dụ, được cung cấp một hình ảnh có kích thước bất kỳ và hình chữ nhật có kích thước LxW làm đầu vào, tôi muốn cắt hình ảnh sang khu vực chú ý trực quan quan trọng nhất. Tôi đang tìm kiếm một phương pháp tiếp cận hiện đại cho điều đó.

Chúng ta có công cụ hay SDK nào để thực hiện điều đó không? Bất kỳ đoạn mã hoặc thuật toán sẽ thực sự có ích.


BTW, trong một đối tượng "đơn", tôi muốn được chú ý. Vì vậy, phát hiện đối tượng có thể không phải là điều tốt nhất.
Tina J

Bạn đang tìm kiếm phương pháp tiếp cận dựa trên học tập sâu hoặc phương pháp xử lý hình ảnh cổ điển?
varsh

Bất kỳ trong số họ sẽ làm việc tốt hơn. Deep Learning có thể là một lựa chọn tốt hơn.
Tina J

Câu trả lời:


2

Bạn có thể tìm kiếm các tiêu đề giấy sau:

  1. Một mạng lưới đa cấp sâu sắc để dự đoán lương.
  2. Vượt ra ngoài tính phổ quát: Dự đoán mức độ cá nhân hóa với CNN đa nhiệm vụ.

Bạn có thể mã bằng python bằng khung Pytorch.


0

"Chú ý" trong mạng thần kinh (trực quan) là khu vực của hình ảnh nơi mạng có thể tìm thấy hầu hết các tính năng để phân loại nó với độ tin cậy cao. Theo mô tả của bạn, bạn đang nói về "sự chú ý mềm".

Chúng ta có công cụ hay SDK nào để thực hiện điều đó không? Tôi không nghĩ rằng có sẵn SDK SDK. Sẽ tốt hơn nhiều khi đào tạo một mô hình trên tập dữ liệu của bạn với sự chú ý. Khi bạn đã sẵn sàng mô hình cơ sở của mình, thật dễ dàng để thêm cơ chế chú ý cho nó. Tôi khuyên bạn nên kiểm tra https://arxiv.org/pdf/1502.03044.pdf .


0

Để có được một máy tính phát hiện và cung cấp hộp giới hạn hoặc khoanh tròn xung quanh khu vực chú ý trực quan trong ảnh, phải xác định cơ sở chú ý. Sau đó, phương pháp để có được hệ thống máy tính để đưa ra lựa chọn dựa trên cơ sở đó có thể được chọn. Điều đầu tiên đầu tiên.

Đó có phải là một khuôn mặt hoặc cơ thể hoặc nhân vật trò chơi sẽ là đối tượng quan tâm? Nó sẽ là đối tượng năng động nhất trong khung về mặt chuyển động? Nếu đó là một người, có phải luôn luôn là cùng một người? Trong cả hai trường hợp, khuôn mặt của họ sẽ được tiếp xúc với góc của máy ảnh? Chỉ có những bức ảnh tĩnh, hay những hình ảnh sẽ là khung hình trong một bộ phim?

Khi bạn biết BẠN sẽ phân biệt đối tượng cần sự chú ý với các đối tượng và nền khác như thế nào, thì bạn có thể bắt đầu xem máy tính có thể mô phỏng nhận dạng đó như thế nào. Khi đào tạo một mạng lưới sâu bao gồm các hạt tích chập (được gọi là CNN hoặc mạng nơ ron tích chập) và có thể là các tế bào bộ nhớ ngắn hạn (LSTM), có các giai đoạn để nhận biết.

Thông thường các cạnh của sự vật được phát hiện đầu tiên. Trong phim, chuyển động của các cạnh được theo dõi như các tính năng của hình ảnh. Các yếu tố trong hình ảnh xác định loại đối tượng nào là đối tượng thứ hai. Ví dụ, một món đồ chơi có thể được phát hiện bằng cách nhựa phản chiếu ánh sáng và các loại màu sắc và hình dạng phổ biến cho đồ chơi. Một khuôn mặt có thể được nhận ra đầu tiên bằng cách xác định mắt, mũi, miệng, cằm và tai.

Sau khi các bộ phận được xác định, sau đó toàn bộ các đối tượng có thể được xác định thông qua một giai đoạn khai thác tính năng khác. Các hệ thống tầm nhìn tuân theo cùng các nguyên tắc nhận biết cơ bản mà hệ thống thị giác của con người chúng ta sử dụng.

Có nhiều khung và thư viện để trợ giúp cho các tác vụ này, nhưng để sử dụng chúng, điều quan trọng là phải có một bức tranh chung về quy trình và làm rõ những gì sẽ đặt các đối tượng quan trọng ra khỏi các đối tượng khác có thể tương tự hoặc hoàn toàn khác nhau để sự chú ý có thể được tập trung theo cách bạn muốn.

(hmin,vmin);(hmax,vmax)

Đó là trạng thái của nghệ thuật. Không có SDK cấp cao nào cho phép người ta ra lệnh cho máy tính tìm mục quan trọng nhất trong khung mà không cần làm rõ ý nghĩa của việc đó và các hoạt động đào tạo để dạy phần mềm tìm ra điều bạn quyết định là quan trọng dựa trên một số tiêu chí. Dù sao cũng chưa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.