Có tài liệu nào trong tài liệu đề cập đến nhiệm vụ phát hiện đối tượng sau đây không?
Nhiệm vụ có thể được mô tả như sau:
Cho một tập hợp các hình ảnh, các nhãn chỉ là tọa độ (x, y) đại diện cho các vị trí đối tượng mà chúng ta muốn phát hiện. Một tọa độ không nhất thiết phải ở trung tâm của đối tượng và đối tượng có thể có kích thước bất kỳ.
Nhiệm vụ là phát hiện một vật thể là người, thuyền hoặc ô tô. Tuy nhiên, các nhãn không nêu rõ danh mục của các đối tượng, các nhãn chỉ đơn giản là tọa độ gần với các đối tượng quan tâm.
Các hình ảnh được chụp mỗi giờ và chúng là ảnh chụp nhanh của cùng một cảnh; do đó, kỹ thuật trừ nền có thể giúp đỡ.
Có khoảng 2000 hình ảnh của cùng một cảnh và mỗi hình ảnh thường có 2 đối tượng quan tâm.
Tôi tự hỏi nếu nhiệm vụ như vậy đã được tiếp cận trước?
Các tính năng Hog và SVM đã cho thấy thành công lớn trong việc phát hiện con người trong hình ảnh. Nhưng các tài liệu liên quan sử dụng dữ liệu đào tạo trong đó các đối tượng quan tâm được dán nhãn bằng cách sử dụng hộp giới hạn thay vì tọa độ đơn.
Ba thách thức chính là:
- Việc chọn hộp giới hạn cho trình phân loại là khó khăn vì các đối tượng có thể có kích thước bất kỳ.
- ảnh chụp nhanh của cảnh được chụp mỗi giờ (máy ảnh cũng có thể di chuyển nhẹ); vì vậy sử dụng phép trừ nền không đơn giản.
- chúng tôi không có nhiều dữ liệu được dán nhãn.
Sẽ rất thú vị khi xem cách mọi người đối phó với những thách thức này.
Cảm ơn!