Người phát hiện từ trên cao


16

Tôi đang cố gắng tìm một số phương pháp để phát hiện mọi người chỉ sử dụng một camera cách mặt đất 3 mét. Đây là một khung được trả về bởi máy ảnh:

nhập mô tả hình ảnh ở đây

CẬP NHẬT: Kiểm tra video -> http://dl.dropbox.com/u/5576334/top_head_shadow.avi

Để làm điều đó, đầu tiên tôi hiểu rằng tôi phải thực hiện phân đoạn nền trước. Đó là phần dễ dàng.

Với mặt nạ nền trước, tôi có thể thực hiện các thao tác đơn giản như biến đổi Hough để tìm vòng tròn, nhưng cách này chỉ phát hiện 60% số đầu, bao gồm nhiều dương tính giả.

Tôi có thể sử dụng một số kỹ thuật đơn giản khác như phân chia màu sắc, nhưng tôi thấy rằng những người đứng đầu rất khác nhìn từ trên xuống vì kiểu tóc, màu sắc, số lượng tóc, ...

Tùy chọn khác tôi có mặc dù đó là khả năng sử dụng HOG Descriptors, hoặc các tính năng giống Haar, nhưng tôi sẽ cần một cơ sở dữ liệu rộng lớn về những người nhìn từ trên cao để huấn luyện các mô hình. Tôi đã không tìm thấy bất cứ điều gì như thế.

Tôi nghĩ rằng đây sẽ là một vấn đề rất thường xuyên, nhưng tôi không thể tìm thấy nhiều về nó trong tài liệu hoặc internet. Bất kỳ trợ giúp để giải quyết nhiệm vụ này sẽ được đánh giá cao :-)

CẬP NHẬT: Để biết thêm thông tin, Mục tiêu là triển khai một số phương pháp chung để thực hiện theo dõi lưu lượng cho người đi bộ. Nguyên mẫu đầu tiên sẽ được thử nghiệm tại Trung tâm thương mại.


1
Nếu bạn có thể đăng một số video, có khả năng ai đó sẽ viết một nguyên mẫu. Bạn có thể gửi bài xin vui lòng?
Andrey Rubshtein

@Andrey, tôi đã tải lên một video kiểm tra cho thấy vấn đề.
emepetres

@emepetres Nếu bạn có tài nguyên để kiểm tra vấn đề này, có lẽ bạn cũng có tài nguyên để tìm máy ảnh phụ? Kết hợp các góc nhìn từ hai camera (một góc nhìn từ trên xuống và một mặt trước hoặc từ một góc) và sử dụng thông tin từ cả hai âm thanh thú vị và giống như một cách tiếp cận hợp lý để theo dõi lưu lượng của người đi bộ (tùy thuộc vào độ chính xác bạn cần)
penelope

4
nhiệm vụ này được gọi là "người đếm" trong văn học.
mrgloom

Bạn có thể cung cấp liên kết cho video này. Nó không có sẵn trong liên kết được cung cấp nữa
Garvita Tiwari

Câu trả lời:


11

Có đối tượng nào khác có thể di chuyển bên cạnh con người không? Nếu không có, bạn chỉ có thể tìm thấy các đốm màu (các thành phần được kết nối) trong mặt nạ nền trước của bạn và đây là người của bạn.

Họ cũng có thể "va chạm" cái này với cái khác, tạo ra một đốm thay vì hai. Trong trường hợp này, bạn có thể thực hiện theo dõi chuyển động và giải quyết sự mơ hồ bằng cách sử dụng thực tế là quỹ đạo và tốc độ trơn tru.

Nếu có các đối tượng khác (như chó, ô tô), bạn nên tạo một bộ phân loại có các tham số blob như:

  • Thống kê Blob (kích thước, độ rắn, vv ..)
  • Màu sắc
  • Thông tin cạnh
  • Tốc độ (trong trường hợp theo dõi)

Và trả về đúng lớp (Con người / Không có con người).


1
Tôi đang tìm kiếm một phương pháp mạnh mẽ có thể phân biệt giữa người / không phải người. Theo cách đó, sau khi suy nghĩ về câu trả lời của bạn, tôi nghĩ rằng việc sử dụng các tham số blob như bạn đề xuất, kết hợp với một số tính năng theo dõi và một số thông tin thống kê của blob là đủ mạnh.
emepetres

8

Tôi đã ở trong "để sử dụng các phương pháp được thử nghiệm tốt, tôi sẽ cần một cơ sở dữ liệu rộng lớn về các ví dụ mà tôi không có" vị trí trong một công ty rất nhỏ "không thể mua được". Tôi rất tiếc rằng tôi đã không đơn giản làm bất cứ điều gì cần thiết để có được càng nhiều dữ liệu càng tốt. Tôi nghĩ rằng cuối cùng họ sẽ tạo ra một thế giới khác biệt.

Bất kỳ loại phát hiện tầm nhìn trong thế giới thực nào cũng có hàng triệu điều bạn không nghĩ đến cho đến khi bạn thử nó và nó đã thất bại. Đó là một vấn đề cũ nhiều, khó khăn hơn nhiều lần so với nó xuất hiện. Tôi khuyên bạn nên bám vào phương pháp "đứng trên vai người khổng lồ" của newton (hoặc, gần như là tốt, trên một đống người lùn lớn). Đó là, sử dụng một phương pháp bạn đã biết hoạt động và mạnh mẽ. Tất cả những thứ nghe có vẻ như sẽ "đủ tốt" thay vào đó sẽ thất bại thảm hại.

Trạng thái của nghệ thuật phát hiện người đi bộ cuối cùng mà tôi biết là HOG ban đầu được thử nghiệm trong chính xác thiết lập đó. Bạn muốn theo dõi vì vậy bạn sẽ cần phải chơi xung quanh trong học giả google một chút để tìm thấy điều đó. Mua điểm chính của tôi là, tôi đã ở một vị trí tương tự và từ đó tôi sẽ khuyên bạn nên lấy cơ sở dữ liệu của mình, bất cứ điều gì bạn phải làm và sử dụng một cái gì đó bạn biết đã hoạt động, đã được thử nghiệm với tỷ lệ thất bại đã biết, không phải là thứ gì đó nghe có vẻ tốt Cuộc diễu hành cái chết 40 năm của các thuật toán thị giác máy tính mà "âm thanh như chúng sẽ hoạt động" không phải là thứ bạn muốn trở thành một phần của nó.

PS Không cố gắng để làm hỏng thị giác máy tính. Đó là một trong những lĩnh vực yêu thích của tôi. Nhưng lịch sử cho thấy có hàng ngàn bước sai phải thực hiện và không có nhiều bước đúng. Tốt hơn là theo dõi một người đã tìm thấy một số bước đúng.


Có lẽ bạn đã đúng, và tôi nên dành một chút thời gian để tạo ra một cơ sở dữ liệu tốt để đào tạo và kiểm tra một mô tả HOG. Theo cách đó, bạn có biết kích thước tối thiểu nào sẽ có cơ sở dữ liệu này để thực hiện đào tạo chính xác không?
emepetres

1
Tôi không biết. Càng rộng càng nhiều càng tốt. Ngoài ra, HOG là một máy dò, nó trả về phản hồi "có một người" hoặc "không có ai" cho một hình ảnh và không có gì khác. Nó không nói gì về vị trí của người đó (vị trí) hoặc pixel là người (phân khúc) hoặc liệu có nhiều người so với một người. Tôi nghĩ rằng một số điều chỉnh cho HOG đã được thực hiện (một số bằng sáng chế) nhưng vấn đề là điều bạn muốn là theo dõi người và HOG vì nó chỉ là về phát hiện , thậm chí không phải là vị trí. Tôi chưa bao giờ làm điều đó nhưng theo dõi người là một chủ đề lâu dài. Kiểm tra giấy tờ theo dõi người.
John Robertson

1
@John Robertson HOG không phát hiện ra nó chỉ là mô tả và nó được sử dụng với một số phân loại (ví dụ SVM + HOG) và nó có thể trả về vị trí của đối tượng.
mrgloom

1
@mrgloom Bạn nói đúng. Nó trả về vị trí bằng cách tìm kiếm ở cửa sổ. Điều đó chỉ nhanh khi sử dụng một phương pháp được cấp bằng sáng chế bởi một tập đoàn lớn. Tôi không có ý định sử dụng trình phát hiện từ theo nghĩa kỹ thuật ở đây, chỉ theo nghĩa tiếng Anh đơn giản rằng đó là thứ phát hiện ra. Nó chỉ cung cấp vị trí theo nghĩa lỏng lẻo rằng trong cửa sổ đó có ai đó chiếm khoảng 80-90% tỷ lệ của cửa sổ nhưng không có bất kỳ nhận dạng nào về phần nào của cửa sổ có thể thuộc về người đó. Tôi quen thuộc với sự phân biệt kỹ thuật mô tả / máy dò.
John Robertson

3

Tôi nghĩ rằng bạn có thể bắt đầu bằng cách kết hợp một vài câu trả lời từ đây.

Có hai cách tiếp cận khác nhau được đề cập trong câu trả lời này , với sự khác biệt lớn là bạn không thể thực hiện nhận diện khuôn mặt vì bạn không nhìn thấy khuôn mặt. Nhưng cách tiếp cận khác vẫn được áp dụng: quyết định thời tiết có gì đó là người đi bộ hay không dựa trên hành động (chuyển động) của nó .

Điều này sẽ, như bạn dự đoán, đề nghị sử dụng một số loại phân đoạn nền trước. Một googling rất nhanh đã tìm thấy bài viết gần đây này có vẻ khá hứa hẹn, nhưng vì tôi chưa bao giờ làm điều này cá nhân, bạn hoặc ai đó có thể có đề xuất tốt hơn cho thuật toán cụ thể để sử dụng trong bước này.

Bây giờ, câu trả lời đầu tiên tôi liên kết chỉ đưa ra một ý tưởng tiếp cận rất chung chung. Tuy nhiên, câu trả lời này có thể cho bạn ý tưởng về các bước tiếp theo của bạn: theo dõi các đối tượng và cố gắng phân biệt giữa chúng dựa trên tốc độ hoặc hướng di chuyển .

Cuối cùng, tôi không bao giờ giải quyết vấn đề bạn gặp phải, vì vậy tôi có thể không giúp được gì nhiều, nhưng có lẽ những câu trả lời tôi liên kết có thể cho bạn một số ý tưởng chung về việc bắt đầu từ đâu. Nó cũng làm tôi ngạc nhiên rằng tôi không thể tìm thấy bất kỳ tác phẩm và bài viết nào trước đây khi tìm kiếm câu trả lời cho vấn đề của bạn, nhưng sau đó, có lẽ bạn chỉ cần ai đó nói cho bạn các từ khóa chính xác để mô tả vấn đề này .


Cảm ơn về câu trả lời của bạn. Bài viết về phân khúc tiền cảnh trông rất thú vị. Như bạn và @Andrey đề xuất, tôi sẽ theo cách tiếp cận phân tích blob để xác định số lượng người trong mỗi blob.
emepetres

@emepetres Sẽ thật tuyệt nếu bạn cho chúng tôi biết về kết quả của bạn và cách tiếp cận thành công như thế nào khi bạn dùng thử và kiểm tra nó
Penelope

1

Tôi có một số loại nhiệm vụ như được mô tả ở đây, đếm người. Nhưng yêu cầu của tôi là máy ảnh phải đối diện với mọi người từ bên trái / bên phải, không qua đầu.

Điều đó đang được nói, khám phá giải pháp khả thi cho trường hợp của tôi, tôi tình cờ tìm thấy một phương pháp thú vị cho trường hợp của bạn (phát hiện trên cao). Những giải pháp đó sử dụng camera âm thanh nổi để bạn có thể xử lý các đốm màu (mọi người di chuyển quá gần nhau) bằng cách xem độ sâu (ví dụ: chỉ nhìn thấy các đốm màu ở mức trung bình của người bình thường).

Sản phẩm này có thể cung cấp cho bạn lời giải thích tốt hơn: digiop . Xem tài liệu để được giải thích kỹ thuật hơn.

PS Tôi không đại diện cho công ty, chỉ đưa ra một giải pháp tài liệu tốt


Cảm ơn bạn đã chia sẻ, Nó dường như là một cách thú vị để giải quyết vấn đề.
emepetres
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.