Làm thế nào có thể đạt được hành động công nhận?


7

Ví dụ: tôi muốn đào tạo mạng lưới thần kinh của mình để nhận ra loại hành động (ví dụ: trong phim thương mại hoặc một số video thực tế), vì vậy tôi có thể "hỏi" mạng của mình trong đó video hoặc phim nào (và ở khung hình nào) đang lái xe, hôn, ăn, sợ hãi hoặc đang nói chuyện qua điện thoại.

Các phương pháp tiếp cận thành công hiện nay cho loại vấn đề đó là gì?

Câu trả lời:


5

Có một số cách tiếp cận như thế nào điều này có thể đạt được.

Một nghiên cứu gần đây từ năm 2015 về Nhận dạng hành động trong Video thể thao thực tế PDF sử dụng khung nhận dạng hành động dựa trên ba bước chính của tính năng trích xuất (hình dạng, thông tin bài đăng hoặc ngữ cảnh), học từ điển để thể hiện video và phân loại ( khung BoW ).

Một vài ví dụ về các phương thức:

  • Cấu trúc Spatio-Temporal của tư thế con người

    K. Soomro và AR Zamir - nhận dạng hành động - hình

  • một chuyển động hình dạng khớp

    K. Soomro và AR Zamir - nhận dạng hành động - hình

  • Học tập thưa thớt đa nhiệm vụ (MTSL)

  • Phân đoạn không gian-thời gian phân cấp

    K. Soomro và AR Zamir - Trích đoạn từ khung video

  • Mô hình bộ phận biến dạng theo thời gian (SDPM)

    K. Soomro và AR Zamir - Kết quả nội địa hóa hành động

Dưới đây là kết quả dựa trên việc đào tạo 10 lớp hành động dựa trên bộ dữ liệu thể thao UCF:

Bộ dữ liệu thể thao UCF: khung mẫu của 10 lớp hành động cùng với chú thích hộp giới hạn của chúng về con người được hiển thị màu vàng

Nguồn: Nhận dạng hành động trong video thể thao thực tế .


5

Nghiên cứu này từ năm 2012 sử dụng mạng nơ ron tích chập 3D (CNN) để nhận dạng tự động các hành động của con người trong các video giám sát. Mô hình 3D CNN trích xuất các tính năng từ cả hai chiều không gian và kích thước thời gian bằng cách thực hiện các cấu trúc 3D, do đó thu được thông tin chuyển động được mã hóa trong nhiều khung liền kề. Một cách tiếp cận học tập sâu rất giống nhau dựa trên CNN 3D đã được thể hiện trong nghiên cứu của LIRIS và Orange Labs từ năm 2011 .


Đây nghiên cứu Oxford từ năm 2014 cũng sử dụng một cách tiếp cận tương tự, nhưng với hai dòng CNN trong đó kết hợp mạng không gian và thời mà có thể đạt được hiệu suất tốt mặc dù có dữ liệu đào tạo còn hạn chế. Nó nhận ra hành động từ chuyển động dưới dạng dòng quang dày đặc. Ví dụ:

Luồng quang sử dụng ConvNets


Một nghiên cứu khác từ năm 2007 cho thấy một phương pháp bằng cách phát hiện thác người dựa trên sự kết hợp giữa lịch sử chuyển động và biến đổi hình dạng con người bằng cách phân tích các khung hình video. Nó sử dụng hình ảnh lịch sử chuyển động (MHI) để định lượng chuyển động của người.

Hình ảnh lịch sử chuyển động (MHI)

Nguồn: harishrithish7 / Phát hiện ngã tại GitHub


Một cách tiếp cận chung khác có thể là phát hiện hành động dựa trên tư thế sử dụng DNN. Xem: Làm thế nào để đạt được sự công nhận các tư thế và cử chỉ?


3D CNN là một giải pháp tuyệt vời cho vấn đề. Nhưng nó cũng có dòng chảy, CNN 3D với máy ảnh lập thể sẽ làm cho nó hoàn hảo, vấn đề duy nhất chúng ta sẽ phải đối mặt là độ sâu z và tiêu cự của máy ảnh, máy ảnh sẽ cần phải tập trung vào đối tượng x sẽ được điều khiển bởi 3D CNN SC hệ thống, tôi đã sử dụng điều này trong nhiều tháng qua, giờ tôi đã quyết định rằng công chúng có thể thử phương pháp của tôi.
Trưởng khoa Van Greunen

3

MIT đã thực hiện nghiên cứu và thực hiện một phiên bản chưa hoàn chỉnh của nhận dạng video hành động.

Với việc sử dụng MATLAB, NNetworks và một bộ video đào tạo lớn.

Tập hợp ý kiến ​​được đề xuất của tôi về câu trả lời trước của tôi cho thấy việc sử dụng NNet đa liên kết với nhau, NNet dựa trên hình ảnh của MIT.


2

Một mạng lưới thần kinh có thể được sử dụng nhưng phải được đào tạo để mong đợi thông tin (mẫu dữ liệu, pixel hoặc các nhóm phạm vi lỏng lẻo như màu sắc và vị trí) tại bất kỳ vị trí nào trong mạng, trước tiên phải thực hiện một hệ thống tầm nhìn. Sau đó, nhận dạng khuôn mặt, sửa chữa một phần cơ thể cá nhân (tìm phần cơ thể và có đối tác với một người) sau đó đào tạo về một số tiểu bang và bạn sẽ có nó hoạt động. MIT đã thực hiện nghiên cứu và đã thực hiện một triển khai chính xác.

Tôi là một nhà nghiên cứu và kỹ sư phần mềm AI trong 7 năm qua.


Seemy chính xác có nghĩa là một hệ thống chưa hoàn thiện nhưng đang hoạt động
Dean Van Greunen

Thực hiện tìm kiếm google về điều này, hoặc tìm trên trang web của MIT dưới phần video của họ. Để biết thêm thông tin.
Dean Van Greunen

1

Không có tìm kiếm phim chung

Đã có những thành công khi nhận ra một chuỗi rất hẹp của một tập hợp các hành động có thể rất hẹp, nhưng không có gì giống như một hệ thống tìm kiếm phim nói chung có thể trả lại một tập hợp các trận đấu với thời gian bắt đầu, thời gian kết thúc và ví dụ phim cho mỗi trận đấu của các tiêu chí tìm kiếm được liệt kê trong câu hỏi này.

  • Ai đó đang lái xe
  • Hôn
  • Ăn
  • Sợ hãi
  • Nói chuyện qua điện thoại

Bình thường hóa danh sách

Trước hết, "Đã sợ", không phải là mô tả của một hành động. Nó nên là, "Trở nên sợ hãi." Thứ hai, "Nói chuyện qua điện thoại" không phải là một mô tả hành động thích hợp. Nó phải là một hành động gợi cảm, chẳng hạn như "Nói vào điện thoại nghe cùng một điện thoại." Để làm cho danh sách đồng nhất ở định dạng, mục đầu tiên phải là "Lái xe ô tô", vì diễn viên là con người trong mọi trường hợp khác.

  • Lái xe ô tô
  • Hôn
  • Ăn
  • Trở nên sợ hãi
  • Nói vào điện thoại và nghe cùng một điện thoại.

Kỳ vọng thiết kế hệ thống thực tế

Thật không thực tế khi nghĩ rằng một mạng lưới thần kinh nhân tạo, có thể được đào tạo để trở lại như là đầu ra của tập bắt đầu và dừng và các trường hợp phim liên quan từ cơ sở dữ liệu phim và một trong các mục danh sách trên làm đầu vào. Điều này sẽ yêu cầu một hệ thống phức tạp với nhiều ANN và các thiết bị ML khác và có thể yêu cầu các thành phần AI khác hoàn toàn không phải là mạng loại kích hoạt. Chắc chắn các hạt tích chập và các loại bộ mã hóa khác nhau nên được coi là các thành phần chính của hệ thống.

Bạn sẽ cần một lượng lớn dữ liệu đào tạo để bao gồm sáu trường hợp trên (cuối cùng trong năm mục thực sự là hai hành động riêng biệt mà chúng ta thường liên kết và xem xét một). Nếu bạn muốn phát hiện thêm hành động, bạn cũng sẽ cần một lượng lớn dữ liệu đào tạo cho họ.

Động từ và danh từ

Lý do câu hỏi này thú vị với tôi là vì nhận ra HÀNH ĐỘNG không giống như nhận ra MỤC. Tất cả các động vật có vú học ITEMS trước và HÀNH ĐỘNG sau. Về mặt ngôn ngữ học, danh từ đến trước động từ trong sự phát triển ngôn ngữ trẻ em. Đó là bởi vì, giống như việc phát hiện các cạnh là sơ bộ để phát hiện các hình dạng, đó là sơ bộ để phát hiện các vật thể, phát hiện chuyển động là sơ bộ để phát hiện hành động.

Các động từ như "Ăn uống" là một sự trừu tượng trên đỉnh của chuyển động, và trong trường hợp ăn, chuyển động rất phức tạp. Ngoài ra, ăn uống không giống như nhai kẹo cao su, vì vậy trình tự được phát hiện phải như sau:

  1. Đưa thức ăn vào mặt qua miệng
  2. Nhai
  3. Nuốt

Xác suất của một chuỗi là sản phẩm của xác suất của các phần của nó, do đó toán học đơn giản và dễ thực hiện. Đồng thời, như trong trường hợp các hành động kết hợp như nói chuyện và nghe cùng một điện thoại, cũng tương đối dễ xử lý nói chung.

Cách tiếp cận thực tế

Chắc chắn khái quát hóa (và cụ thể hơn là trích xuất tính năng) sẽ cần phải xảy ra trong nhận dạng đối tượng, phát hiện va chạm, phát hiện chuyển động, nhận dạng khuôn mặt và các mặt phẳng khác cùng một lúc. Một cấu trúc liên kết phức tạp, có lẽ sử dụng cân bằng như trong thiết kế GAN, rất có thể sẽ cần thiết để lắp ráp các yếu tố của tiêu chí liên quan đến chuỗi truy vấn phim và để chạy các cửa sổ qua các khung của mỗi phim.

Để cung cấp dịch vụ trả về kết quả trong vòng vài ngày hoặc vài tuần có thể sẽ cần một cụm và phần cứng DSP (có thể tận dụng GPU).

Những trường hợp đặc biệt mà bộ não con người xử lý

Xác định khoảng thời gian một trong hai yếu tố đồng thời có thể không bị phát hiện trước khi nó vô hiệu hóa kết hợp có thể khó khăn. (Bao lâu người ta không thể nói vào điện thoại trước khi nó xuất hiện rằng nó không còn được coi là cuộc trò chuyện điện thoại nữa?)

Nếu trong phim, chỉ có nuốt được, một con người có thể suy ra việc ăn uống. Loại độ tin cậy kết luận từ dữ liệu thưa thớt là một thách thức AI lớn được thảo luận trong các bối cảnh khác nhau trong suốt tài liệu.

Sự xuất hiện của công nghệ liên kết - Dự đoán

Tôi nghi ngờ rằng địa hình hệ thống bao gồm ANN, bộ mã hóa, hạt tích chập và các thành phần khác để thực hiện tìm kiếm bất kỳ bộ hành động được chọn nào sẽ xuất hiện trong vòng mười năm tới. Công việc dường như được theo dõi theo hướng đó trong tài liệu.

Một hệ thống sẽ có được thông tin đào tạo của riêng mình, phát triển kiến ​​thức một cách bền vững và thực hiện các tìm kiếm chung nếu tăng độ rộng và độ phức tạp có thể ở bất cứ đâu từ bốn mươi đến hai trăm năm. Thật khó để dự đoán.

Dự đoán tổng quá mức

Mọi thế hệ dường như xem sự phát triển tri thức là một hàm số mũ và có xu hướng đưa ra những dự đoán không thực tế về sự ra đời của một số khả năng công nghệ được xác định. Hầu hết các dự đoán thất bại đáng kể. Tôi đã tin rằng sự tăng trưởng theo cấp số nhân là một ảo ảnh được tạo ra bởi sự phân rã theo cấp số nhân của lợi ích trong quá khứ đối với thời gian.

Chúng tôi mất theo dõi năng lượng và tốc độ tăng trưởng trong thời đại trước chúng tôi vì chúng trở nên không liên quan đến xã hội. Mọi người đi vào lịch sử khoa học, như Whitehead, Kuhn và Ellul đều biết rằng công nghệ đã tiến lên nhanh chóng trong ít nhất vài trăm năm. Vernadski đã suy luận trong cuốn Sinh quyển của mình rằng cuộc sống có thể không phát sinh, giống như vật chất và năng lượng, nó có thể luôn tồn tại. Tôi tự hỏi nếu công nghệ đã di chuyển với tốc độ không đổi trong 50.000 năm qua.

Đức quyết định tăng gấp đôi sản lượng năng lượng mặt trời mỗi năm và công bố thành công theo cấp số nhân của mình, cho đến vài năm trước, khi tăng gấp đôi một lần nữa sẽ tiêu tốn hơn một trăm tỷ đô la so với số tiền họ phải bỏ ra. Họ đã ngừng xuất bản các biểu đồ tăng trưởng theo cấp số nhân.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.