Tầm nhìn máy tính: phát hiện đối tượng với các nhãn là tọa độ đơn


7

Có tài liệu nào trong tài liệu đề cập đến nhiệm vụ phát hiện đối tượng sau đây không?

Nhiệm vụ có thể được mô tả như sau:

  • Cho một tập hợp các hình ảnh, các nhãn chỉ là tọa độ (x, y) đại diện cho các vị trí đối tượng mà chúng ta muốn phát hiện. Một tọa độ không nhất thiết phải ở trung tâm của đối tượng và đối tượng có thể có kích thước bất kỳ.

  • Nhiệm vụ là phát hiện một vật thể là người, thuyền hoặc ô tô. Tuy nhiên, các nhãn không nêu rõ danh mục của các đối tượng, các nhãn chỉ đơn giản là tọa độ gần với các đối tượng quan tâm.

  • Các hình ảnh được chụp mỗi giờ và chúng là ảnh chụp nhanh của cùng một cảnh; do đó, kỹ thuật trừ nền có thể giúp đỡ.

  • Có khoảng 2000 hình ảnh của cùng một cảnh và mỗi hình ảnh thường có 2 đối tượng quan tâm.

Tôi tự hỏi nếu nhiệm vụ như vậy đã được tiếp cận trước?

Các tính năng Hog và SVM đã cho thấy thành công lớn trong việc phát hiện con người trong hình ảnh. Nhưng các tài liệu liên quan sử dụng dữ liệu đào tạo trong đó các đối tượng quan tâm được dán nhãn bằng cách sử dụng hộp giới hạn thay vì tọa độ đơn.

Ba thách thức chính là:

  • Việc chọn hộp giới hạn cho trình phân loại là khó khăn vì các đối tượng có thể có kích thước bất kỳ.
  • ảnh chụp nhanh của cảnh được chụp mỗi giờ (máy ảnh cũng có thể di chuyển nhẹ); vì vậy sử dụng phép trừ nền không đơn giản.
  • chúng tôi không có nhiều dữ liệu được dán nhãn.

Sẽ rất thú vị khi xem cách mọi người đối phó với những thách thức này.

Cảm ơn!


Âm thanh như chỉ phát hiện đối tượng và nội địa hóa. Bạn đã làm nghiên cứu gì? Bạn đã đọc về những chủ đề này? Có một số lý do bạn không tin rằng đây là một ví dụ về điều đó, hoặc bạn không thấy đó là một câu trả lời chấp nhận được cho câu hỏi của bạn?
DW

Trong khi nghiên cứu về chủ đề này, tôi đã không tìm thấy một bài nghiên cứu trong đó các nhãn đối tượng được đưa ra dưới dạng tọa độ thay vì (1) hộp giới hạn hoặc (2) nhãn thông minh pixel . Phối hợp ghi nhãn làm cho các thuật toán xử lý hình ảnh khó nhận biết các đối tượng hơn nhưng con người dễ dàng gắn nhãn các đối tượng hơn. Nhưng tôi đoán tôi có thể sử dụng xác nhận chéo để xác định hộp giới hạn tốt nhất cho từng đối tượng được gắn nhãn. Sẽ rất hữu ích khi có một tài liệu tham khảo cho một bài nghiên cứu trong đó bộ dữ liệu có cơ chế ghi nhãn tương tự. @nbubis có một câu trả lời tuyệt vời, nhưng các bài báo anh ấy đăng có bộ dữ liệu đẹp hơn.
Tò mò

Câu trả lời:


4

Tình trạng của nghệ thuật trong những vấn đề như vậy được thực hiện ngày nay thông qua các mạng lưới thần kinh sâu sắc. Trong số những cách khác, hai cách tiếp cận phổ biến và gần đây để giải quyết vấn đề phát hiện và bản địa hóa các đối tượng là giấy YOLORCNN nhanh hơn , chạy phân loại trên nhiều vùng có kích thước khác nhau trong một hình ảnh.

Vì con người, thuyền và ô tô là các lớp đối tượng phổ biến, trước tiên tôi sẽ thử xem các mạng được đào tạo sẵn có thể làm gì cho vấn đề của bạn, và sau đó, nếu cần, hãy thử và đào tạo lại chúng bằng dữ liệu của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.